#KernelOptimization

4개의 포스트

[vllm] vLLM의 성능 극대화: Helion 커널을 활용한 fused_qk_norm_rope 최적화

vLLM에 Helion 커널을 도입하여 fused_qk_norm_rope 연산 성능을 H100 기준 최대 1.38배 향상시킨 사례 분석.

#vLLM #Helion #KernelOptimization #CUDA #LLM

2026년 6월 29일

[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입

대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.

#SGLang #CUDA #KernelOptimization #Vectorization #H200

2026년 5월 30일

[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상

vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.

#vLLM #DeepSeekV4 #CUDA #CuteDSL #KernelOptimization #GPUPerformance #MXFP4 #Quantization

2026년 5월 9일

[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입

SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.

#SGLang #LLM #Quantization #CUDA #KernelOptimization

2026년 4월 11일