#DeepSeek V4

3개의 포스트

[sglang] DeepSeek V4의 Prefill 성능을 1.35배 향상시킨 FlashAttention 최적화

DeepSeek V4 모델의 Prefill 단계 성능을 획기적으로 개선한 FlashAttention 최적화 분석

#AI #LLM #Performance Optimization #FlashAttention #DeepSeek V4 #SGLang

2026년 6월 3일

[vllm] vLLM, DeepSeek V4 모델의 저지연을 위한 RMSNorm과 라우터 GEMV 연산 융합으로 성능 극대화

vLLM이 DeepSeek V4 모델에서 RMSNorm과 라우터 GEMV 연산을 융합하여 지연 시간을 단축하고 처리량을 향상시킨 방법을 분석합니다.

#vLLM #DeepSeek V4 #성능 최적화 #CUDA 커널 #LLM 추론

2026년 5월 14일

[vllm] vLLM ROCm 환경에서 AITER를 활용한 Multi-Head Convolutions(MHC) 성능 최적화 및 안정성 개선

vLLM ROCm 환경에서 AITER 커널을 통합하여 MHC 연산 성능을 크게 향상시키고, Tilelang 의존성을 제거하여 안정성을 높인 PR 분석

#vLLM #ROCm #AITER #MHC #Performance Optimization #Bugfix #DeepSeek V4

2026년 5월 13일