PR Analysis

[vllm] vLLM, GDN Prefill 커널을 CuteDSL로 최적화하여 성능 향상

vLLM의 GDN Prefill 연산에서 새로운 CuteDSL 기반 커널을 도입하여 성능을 크게 개선했습니다.

#vLLM #GDN #CuteDSL #최적화 #성능 #LLM

2026년 5월 26일

[sglang] SGLang EAGLE 디코딩 최적화: 불필요한 Softmax 연산 제거로 성능 향상

SGLang EAGLE 디코딩에서 topk=1일 때 불필요한 Softmax 연산을 제거하여 성능을 개선했습니다.

#SGLang #EAGLE #Speculative Decoding #Performance Optimization #Softmax #Top-k Sampling

2026년 5월 25일

[cpython] Python의 os.fork 후 발생하던 성능 프로파일링 충돌 문제 해결 및 최적화 분석

os.fork 후 발생하던 CPython의 성능 프로파일링 충돌 문제를 해결하고, 코드 재사용성을 높인 최적화 분석.

#Python #CPython #Performance #Optimization #fork #Profiling

2026년 5월 25일

[sglang] SGLang Diffusion 최적화: CFG Gating을 통한 추론 속도 20% 향상

Classifier-free guidance(CFG)의 불필요한 연산을 줄이는 CFG Gating 기법을 도입하여 Denoising 단계의 성능을 25% 개선했습니다.

#SGLang #Diffusion #Optimization #LLM #Inference

2026년 5월 25일

[sglang] SGLang의 MoE 성능 최적화: 512 전문가 모델을 위한 커널 최적화

Qwen3.5-397B와 같은 대규모 MoE 모델을 위해 512 전문가를 지원하는 커널 최적화로 성능을 최대 4배 이상 향상시켰습니다.

#SGLang #MoE #CUDA #Kernel Optimization #LLM

2026년 5월 25일

[sglang] [VLM 성능 최적화] Qwen-VL의 자잘한 H2D 오버헤드 줄이기: 단일 대형 전송으로의 전환

Qwen-VL 모델에서 발생하는 빈번한 소규모 Host-to-Device(H2D) 전송을 통합하고, 불필요한 CPU 동기화를 제거하여 멀티모달 추론 성능을 개선한 사례를 분석합니다.

#VLM #Qwen-VL #CUDA #Performance-Optimization #PyTorch #SGLang

2026년 5월 24일

[sglang] SGLang VLM 최적화: CUDA IPC Staging 오버헤드 제거를 통한 성능 향상

VLM 입력 처리 시 불필요한 CUDA IPC 스테이징을 제거하여 TTFT 및 E2E 지연 시간을 개선한 최적화 사례입니다.

#SGLang #VLM #CUDA #Optimization #Performance

2026년 5월 24일

[vllm] vLLM DeepSeek V4 ROCm MTP 지원: 하드웨어 최적화와 추론 성능 향상

DeepSeek V4 모델의 ROCm MTP 지원을 통해 추론 성능을 크게 향상시킨 vLLM PR 분석.

#vLLM #ROCm #DeepSeekV4 #MTP #SpeculativeDecoding #Triton #FP8 #Optimization

2026년 5월 24일

[triton] Triton Reduce 커널 성능 최적화: Subtiling과 RowIdxs 도입

Triton Reduce 커널의 성능을 향상시키기 위해 subtiling과 rowidxs 기법을 도입한 코드 변경 분석.

#Triton #Performance Optimization #CUDA #Deep Learning #Kernel Tuning

2026년 5월 24일

[cpython] CPython의 PySequence_GetSlice 성능 개선: 불필요한 참조 카운트 연산 제거

CPython의 PySequence_GetSlice 함수에서 불필요한 참조 카운트 증가/감소 연산을 제거하여 성능을 개선했습니다.

#Python #CPython #Performance #Optimization #C API

2026년 5월 23일

[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화

sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.

#PyTorch #torch.compile #GPU Optimization #LLM Inference #Kernel Fusion #sglang

2026년 5월 23일

[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근

vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.

#vLLM #XPU #MOE #Performance #Optimization

2026년 5월 23일

[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화

RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.

#RISC-V #RVV #ONNX Runtime #LLM #Optimization

2026년 5월 23일

[vllm] vLLM 기술 딥다이브: CUTLASS를 활용한 NVFP4 Linear 커널의 Batch Invariance 최적화

vLLM에서 NVFP4 양자화 연산의 배치 크기 독립적 결과(Batch Invariance)를 보장하고 성능을 극대화한 CUTLASS 커널 개선 사례를 분석합니다.

#vLLM #CUTLASS #NVFP4 #CUDA #Optimization #Blackwell

2026년 5월 23일

[ultralytics] Ultralytics 코드베이스 경량화: SciPy 의존성 감소 및 NumPy 기반 최적화

SciPy 의존성을 줄이고 NumPy를 활용하여 Ultralytics 코드의 성능과 이식성을 개선한 PR 분석

#Python #NumPy #SciPy #Optimization #Ultralytics #Machine Learning

2026년 5월 22일

[onnxruntime] ONNX Runtime CPU ScatterElements 커널의 멀티스레딩 최적화 분석

CPU ScatterElements 연산을 ThreadPool을 활용해 병렬화하여 129배의 성능 향상을 달성한 사례를 분석합니다.

#ONNXRuntime #C++#Optimization #MultiThreading #Performance

2026년 5월 22일

[cpython] Python JIT 최적화: 트레이스 버퍼 오버헤드 관리 개선

Python JIT 컴파일러의 트레이스 버퍼 관리 방식을 개선하여 안정성을 높이고 성능을 소폭 향상시킨 PR을 분석합니다.

#Python #JIT #Optimization #CPython #Performance

2026년 5월 21일

[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속

CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.

#ONNX Runtime #LLM #Quantization #SIMD #Performance

2026년 5월 21일

[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석

DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.

#FlashInfer #DeepSeek #CUDA #LLM #Optimization

2026년 5월 21일

[LlamaFactory] LlamaFactory의 Triton 기반 Fused MoE 커널 도입: 40% 이상의 성능 향상

Triton으로 구현된 Fused MoE 커널을 통해 Mixtral 등 MoE 모델의 학습 속도를 획기적으로 개선합니다.

#LlamaFactory #Triton #MoE #DeepLearning #Optimization

2026년 5월 20일