PR Analysis

[sglang] Qwen3.5 및 Qwen3_Next 모델의 NPU 성능 향상을 위한 Triton 커널 퓨전 최적화

NPU 환경에서 Qwen3.5 및 Qwen3_Next 모델의 어텐션 레이어 성능을 극대화하는 Triton 커널 퓨전 최적화 분석

#NPU #Triton #Kernel Fusion #Optimization #Qwen3.5 #Qwen3_Next #LLM

2026년 5월 20일

[cpython] Tachyon 프로파일러의 성능 한계를 돌파하다: CPython 원격 디버깅 최적화 분석

원격 프로세스 메모리 읽기 최적화와 캐시 전략 개선을 통해 Tachyon 프로파일러의 오버헤드를 획기적으로 줄인 사례를 분석합니다.

#Python #CPython #Profiling #Performance #Linux #Systems Programming

2026년 5월 20일

[ray] [Ray Data] Wide Schema에서 10배 성능 향상을 이끌어낸 한 줄의 설정: Parquet pre_buffer의 마법

Ray Data V2에서 wide schema Parquet 파일을 읽을 때 발생하는 I/O 병목 현상을 pre_buffer 설정을 통해 해결하고 성능을 10배 개선한 사례를 분석합니다.

#Ray #PyArrow #Parquet #Performance Optimization #Data Engineering

2026년 5월 19일

[vllm] vLLM 성능 최적화: GPU-CPU 간 불필요한 동기화 제거하기

vLLM에서 GPU와 CPU 간의 불필요한 동기화를 제거하여 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#vLLM #LLM #Performance #GPU #Optimization

2026년 5월 19일

[triton] AMD GPU에서 불필요한 워프 로드를 제거하여 성능을 최적화한 Triton PR 분석

AMD GPU 아키텍처에서 불필요한 데이터 로드를 방지하여 VGPR 사용량을 최대 35% 줄이는 최적화 기법을 분석합니다.

#Triton #AMD GPU #Optimization #LLVM #Compiler

2026년 5월 19일

[cpython] CPython 성능 최적화: 임시 리스트를 튜플로 변환할 때의 '아이템 스틸' 기법

CPython 3.14에서 도입된 INTRINSIC_LIST_TO_TUPLE 최적화를 통해 불필요한 메모리 복사를 제거하고 성능을 8%까지 끌어올린 과정을 살펴봅니다.

#CPython #Python Internals #Optimization #Performance #C-API

2026년 5월 18일

[loki] Grafana Loki: Range Aggregation 성능 최적화와 메모리 할당 감소

overlapping window 시나리오에서 불필요한 메모리 할당을 제거하여 성능을 39% 향상시킨 사례 분석

#Golang #Grafana Loki #Performance #Optimization #Memory Management

2026년 5월 18일

[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!

vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.

#vLLM #PyTorch #Optimization #Performance #DeepLearning #Qwen3.5 #einops #flatten

2026년 5월 18일

[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기

Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.

#HuggingFace #Transformers #TensorParallelism #ContinuousBatching #LLM

2026년 5월 18일

[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석

DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석

#AI #LLM #Optimization #Triton #DeepSeekV4 #MoE

2026년 5월 18일

[sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화

SGLang에서 레이어별 오프로딩을 기본값으로 설정하여 인코더 및 VAE 컴포넌트의 추론 속도를 개선했습니다.

#SGLang #성능 최적화 #딥러닝 #컴퓨터 비전 #LLM

2026년 5월 17일

[sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화

torch.compile을 도입하여 MUSA 및 CUDA 환경에서 Wan 모델의 추론 성능을 최대 1.09배 향상시킨 최적화 사례를 분석합니다.

#SGLang #torch.compile #MUSA #CUDA #Optimization

2026년 5월 17일

[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선

SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.

#SGLang #Optimization #VAE #bf16 #MemoryEfficiency

2026년 5월 16일

[sglang] LTX2 스플릿 로터리 커널 최적화: 헤드 배치 처리로 성능 2배 향상

LTX2 스플릿 로터리 커널에서 헤드 배치 처리를 도입하여 성능을 2배 향상시킨 코드 최적화 분석.

#Triton #Performance Optimization #LLM Kernel #RoPE #SGLang

2026년 5월 16일

[vllm] vLLM의 혁신: Breakable CUDA Graph로 LLM 추론 성능 최적화

vLLM이 Breakable CUDA Graph를 도입하여 LLM 추론 성능을 향상시킨 PR 분석.

#vLLM #CUDA Graph #Optimization #LLM Inference #Deep Learning

2026년 5월 16일

[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입

TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.

#SGLang #CUDA #Triton #LLM #Optimization #TMA

2026년 5월 15일

[sglang] sglang diffusion 모델 성능 향상: Cache-DiT와 torch.compile의 최적화된 적용 순서

sglang diffusion 모델의 첫 번째 실제 요청 지연 시간을 43.77% 단축한 Cache-DiT와 torch.compile 적용 순서 최적화 분석

#sglang #diffusion #torch.compile #optimization #performance #AI

2026년 5월 15일

[triton] Triton 커널 최적화: Mask Sorting을 통한 Reduction 연산 가속화

Triton의 reduction 연산에서 불필요한 루프 반복을 줄이기 위해 마스크를 기준으로 행을 정렬하고 루프 바운드를 최적화하는 기법을 분석합니다.

#Triton #GPU Optimization #Deep Learning #CUDA #Kernel Programming

2026년 5월 15일

[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화

SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.

#SGLang #LLM #NPU #Optimization #Memory Management

2026년 5월 15일

[vllm] vLLM의 NIXL KV 전송을 활용한 GDN(Gated Delta Net) 모델 지원 최적화

Qwen3.5와 같은 GDN 모델을 위해 NIXL 커넥터의 컨볼루션 상태 레이아웃을 최적화하고 이기종 TP 환경에서의 전송 효율을 개선했습니다.

#vLLM #LLM #GDN #KV-Cache #Distributed-Serving

2026년 5월 14일