[vllm] vLLM, DeepSeek V4 모델의 저지연을 위한 RMSNorm과 라우터 GEMV 연산 융합으로 성능 극대화vLLM이 DeepSeek V4 모델에서 RMSNorm과 라우터 GEMV 연산을 융합하여 지연 시간을 단축하고 처리량을 향상시킨 방법을 분석합니다.#vLLM#DeepSeek V4#성능 최적화#CUDA 커널#LLM 추론2026년 5월 14일댓글 수 로딩 중