[vllm] vLLM, DeepSeek V4 모델의 저지연을 위한 RMSNorm과 라우터 GEMV 연산 융합으로 성능 극대화vLLM이 DeepSeek V4 모델에서 RMSNorm과 라우터 GEMV 연산을 융합하여 지연 시간을 단축하고 처리량을 향상시킨 방법을 분석합니다.#vLLM#DeepSeek V4#성능 최적화#CUDA 커널#LLM 추론2026년 5월 14일댓글 수 로딩 중
[vllm] vLLM ROCm 환경에서 AITER를 활용한 Multi-Head Convolutions(MHC) 성능 최적화 및 안정성 개선vLLM ROCm 환경에서 AITER 커널을 통합하여 MHC 연산 성능을 크게 향상시키고, Tilelang 의존성을 제거하여 안정성을 높인 PR 분석#vLLM#ROCm#AITER#MHC#Performance Optimization#Bugfix#DeepSeek V42026년 5월 13일댓글 수 로딩 중