[ray] [Ray Data] Wide Schema에서 10배 성능 향상을 이끌어낸 한 줄의 설정: Parquet pre_buffer의 마법Ray Data V2에서 wide schema Parquet 파일을 읽을 때 발생하는 I/O 병목 현상을 pre_buffer 설정을 통해 해결하고 성능을 10배 개선한 사례를 분석합니다.#Ray#PyArrow#Parquet#Performance Optimization#Data Engineering2026년 5월 19일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: GPU-CPU 간 불필요한 동기화 제거하기vLLM에서 GPU와 CPU 간의 불필요한 동기화를 제거하여 추론 성능을 극대화하는 최적화 기법을 분석합니다.#vLLM#LLM#Performance#GPU#Optimization2026년 5월 19일댓글 수 로딩 중
[triton] AMD GPU에서 불필요한 워프 로드를 제거하여 성능을 최적화한 Triton PR 분석AMD GPU 아키텍처에서 불필요한 데이터 로드를 방지하여 VGPR 사용량을 최대 35% 줄이는 최적화 기법을 분석합니다.#Triton#AMD GPU#Optimization#LLVM#Compiler2026년 5월 19일댓글 수 로딩 중
[cpython] CPython 성능 최적화: 임시 리스트를 튜플로 변환할 때의 '아이템 스틸' 기법CPython 3.14에서 도입된 INTRINSIC_LIST_TO_TUPLE 최적화를 통해 불필요한 메모리 복사를 제거하고 성능을 8%까지 끌어올린 과정을 살펴봅니다.#CPython#Python Internals#Optimization#Performance#C-API2026년 5월 18일댓글 수 로딩 중
[loki] Grafana Loki: Range Aggregation 성능 최적화와 메모리 할당 감소overlapping window 시나리오에서 불필요한 메모리 할당을 제거하여 성능을 39% 향상시킨 사례 분석#Golang#Grafana Loki#Performance#Optimization#Memory Management2026년 5월 18일댓글 수 로딩 중
[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.#vLLM#PyTorch#Optimization#Performance#DeepLearning#Qwen3.5#einops#flatten2026년 5월 18일댓글 수 로딩 중
[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.#HuggingFace#Transformers#TensorParallelism#ContinuousBatching#LLM2026년 5월 18일댓글 수 로딩 중
[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석#AI#LLM#Optimization#Triton#DeepSeekV4#MoE2026년 5월 18일댓글 수 로딩 중
[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.#SGLang#성능 최적화#딥러닝#컴퓨터 비전#LLM2026년 5월 17일댓글 수 로딩 중
[sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화torch.compile을 도입하여 MUSA 및 CUDA 환경에서 Wan 모델의 추론 성능을 최대 1.09배 향상시킨 최적화 사례를 분석합니다.#SGLang#torch.compile#MUSA#CUDA#Optimization2026년 5월 17일댓글 수 로딩 중
[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.#SGLang#Optimization#VAE#bf16#MemoryEfficiency2026년 5월 16일댓글 수 로딩 중
[sglang] LTX2 스플릿 로터리 커널 최적화: 헤드 배치 처리로 성능 2배 향상LTX2 스플릿 로터리 커널에서 헤드 배치 처리를 도입하여 성능을 2배 향상시킨 코드 최적화 분석.#Triton#Performance Optimization#LLM Kernel#RoPE#SGLang2026년 5월 16일댓글 수 로딩 중
[vllm] vLLM의 혁신: Breakable CUDA Graph로 LLM 추론 성능 최적화vLLM이 Breakable CUDA Graph를 도입하여 LLM 추론 성능을 향상시킨 PR 분석.#vLLM#CUDA Graph#Optimization#LLM Inference#Deep Learning2026년 5월 16일댓글 수 로딩 중
[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.#SGLang#CUDA#Triton#LLM#Optimization#TMA2026년 5월 15일댓글 수 로딩 중
[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석#sglang#diffusion#torch.compile#optimization#performance#AI2026년 5월 15일댓글 수 로딩 중
[triton] Triton 커널 최적화: Mask Sorting을 통한 Reduction 연산 가속화Triton의 reduction 연산에서 불필요한 루프 반복을 줄이기 위해 마스크를 기준으로 행을 정렬하고 루프 바운드를 최적화하는 기법을 분석합니다.#Triton#GPU Optimization#Deep Learning#CUDA#Kernel Programming2026년 5월 15일댓글 수 로딩 중
[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.#SGLang#LLM#NPU#Optimization#Memory Management2026년 5월 15일댓글 수 로딩 중
[vllm] vLLM의 NIXL KV 전송을 활용한 GDN(Gated Delta Net) 모델 지원 최적화Qwen3.5와 같은 GDN 모델을 위해 NIXL 커넥터의 컨볼루션 상태 레이아웃을 최적화하고 이기종 TP 환경에서의 전송 효율을 개선했습니다.#vLLM#LLM#GDN#KV-Cache#Distributed-Serving2026년 5월 14일댓글 수 로딩 중
[onnxruntime] Apple M4 Max를 위한 FlashAttention 최적화: 20배 성능 향상 분석WebGPU 기반 FlashAttention을 Apple 실리콘 환경에 맞춰 튜닝하여 최대 20배의 성능 향상을 달성한 기술적 접근을 분석합니다.#ONNXRuntime#WebGPU#FlashAttention#AppleSilicon#PerformanceOptimization2026년 5월 14일댓글 수 로딩 중
[vllm] Blackwell을 위한 새로운 MLA 백엔드: TOKENSPEED_MLA 분석 (DeepSeek R1 최적화)Blackwell(SM100) 아키텍처에서 DeepSeek R1의 MLA 성능을 극대화하는 TOKENSPEED_MLA 백엔드 도입 및 분석.#vLLM#DeepSeek-R1#MLA#Blackwell#CUDA#Performance-Optimization2026년 5월 14일댓글 수 로딩 중