[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화

2026년 5월 11일수정: 2026년 5월 11일

PR 링크: vllm-project/vllm#40392 상태: Merged | 변경: +0 / -0

들어가며

최근 DeepSeek-R1과 같은 Multi-Head Latent Attention(MLA) 아키텍처를 사용하는 모델들이 주목받고 있습니다. 하지만 MLA는 기존의 MHA/GQA와는 다른 복잡한 KV 캐시 구조와 RoPE 연산을 필요로 하여, 추론 시 연산 오버헤드가 발생하기 쉽습니다. vLLM 프로젝트의 이번 PR은 MLA 모델의 핵심 연산인 RoPE, KV Cache 업데이트, 그리고 쿼리 결합(q_concat)을 하나의 CUDA 커널로 퓨전(Fusion)하여 메모리 접근 횟수를 줄이고 성능을 최적화하는 내용을 담고 있습니다.

코드 분석

1. `csrc/cache_kernels_fused.cu`: 커널 퓨전 구현

핵심 변경 사항은 개별적으로 수행되던 연산들을 concat_and_cache_mla_rope_fused_kernel이라는 하나의 커널로 통합한 것입니다. 기존에는 RoPE 적용 후 별도의 단계에서 KV 캐시를 업데이트했으나, 이제는 커널 내부에서 직접 메모리에 접근하여 연산을 수행합니다.

Before (개념적 분리):

// RoPE 적용 후 별도 단계에서 캐시 업데이트
apply_rope(q_pe, k_pe, ...);
concat_and_cache(kv_cache, k_pe, kv_c, ...);

After (통합 커널):

// 하나의 커널에서 RoPE 연산과 캐시 쓰기를 동시에 수행
__global__ void concat_and_cache_mla_rope_fused_kernel(...) {
  // ... RoPE 연산 ...
  // ... 캐시 슬롯 매핑 및 쓰기 ...
  kv_cache[slot_idx] = ...;
}

또한, slot_mapping을 통해 패딩된 토큰을 효율적으로 건너뛰도록 하여 불필요한 연산을 방지했습니다.

Throughput: 최대 5.1% 향상
Mean TPOT (Time Per Output Token): 최대 4.8% 감소
P99 TPOT: 최대 26.1% 감소 (지연 시간의 안정성 크게 개선)

교훈

커널 퓨전(Kernel Fusion)은 필수: 메모리 집약적인 연산이 많은 LLM 추론에서 커널 퓨전은 성능 최적화의 가장 강력한 도구입니다.
데이터 타입 디스패치: VLLM_DISPATCH_FLOATING_TYPES와 같은 매크로를 활용해 런타임에 최적화된 타입을 선택하는 패턴은 범용성과 성능을 모두 잡는 좋은 예시입니다.
패딩 처리의 중요성: CUDA 그래프 사용 시 발생하는 패딩 토큰을 커널 내부에서 slot_idx < 0 체크로 빠르게 처리하는 것은 불필요한 연산을 줄이는 핵심적인 디테일입니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [sglang] SGLang NPU 최적화: MoE 모델을 위한 Dual Stream 병렬 처리 도입
현재글 : [vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화
다음글 [onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선

[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화

들어가며

코드 분석

1. `csrc/cache_kernels_fused.cu`: 커널 퓨전 구현

2. `CALL_CONCAT_AND_CACHE_MLA_ROPE_FUSED` 매크로 개선

왜 이게 좋은가

성능 수치

교훈

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글