[vllm] vLLM, Gemma 4 모델에 양자화된 Speculative Decoding 적용: 성능 향상의 비밀

2026년 5월 6일수정: 2026년 5월 6일

PR 링크: vllm-project/vllm#41745 상태: Merged | 변경: +None / -None

들어가며

최근 대규모 언어 모델(LLM)의 발전 속도는 눈부십니다. 하지만 모델의 크기가 커질수록 추론 속도는 중요한 병목 현상이 됩니다. 이러한 문제를 해결하기 위해 vLLM은 다양한 최적화 기법을 도입해왔습니다. 이번 글에서는 vLLM 프로젝트의 최신 PR([Spec Decode] Add Gemma4 MTP speculative decoding support)을 분석하여, Gemma 4 모델에 Multi-Token Prediction (MTP) 기반의 Speculative Decoding을 적용함으로써 얻게 된 성능 향상의 원리를 깊이 파헤쳐 보겠습니다. 특히, 이 PR은 기존 모델과의 호환성, 양자화된 모델 지원, 그리고 효율적인 KV 캐시 공유 등 복잡한 기술적 과제들을 어떻게 해결했는지 살펴보겠습니다.

코드 분석

이번 PR은 Gemma 4 모델 아키텍처에 특화된 Speculative Decoding 기능을 추가하는 데 중점을 둡니다. 이를 위해 새로운 모델 클래스(Gemma4MTPModel), 프로포저(Gemma4Proposer), 그리고 관련 설정 및 유틸리티 함수들이 도입되었습니다. 주요 변경 사항을 파일별로 살펴보겠습니다.

`vllm/model_executor/models/gemma4_mtp.py` 및 `vllm/v1/spec_decode/gemma4.py`: Gemma 4 MTP 모델 및 프로포저 구현

이 PR의 핵심은 Gemma 4 모델 아키텍처에 맞춰 Speculative Decoding을 구현하는 것입니다. 특히, Gemma 4의 특징인 Q-only 어텐션 레이어와 센트로이드 마스킹(centroids masking) 최적화를 활용합니다.

1. Gemma4MTPModel (Assistant 모델):

이 클래스는 Gemma 4의 어시스턴트 모델 역할을 합니다. 타겟 모델(Backbone model)과 KV 캐시를 공유하며, Q-only 어텐션 레이어를 사용하여 계산량을 줄입니다. 센트로이드 마스킹은 lm_head 연산을 전체 어휘 크기에서 학습된 센트로이드 기반의 후보 토큰으로 제한하여 효율성을 높입니다.

센트로이드 마스킹 (Centroids Masking):
- Gemma4MTPMaskedEmbedder 클래스는 lm_head 연산을 최적화합니다. hidden states를 센트로이드로 투영하고, 상위 K개의 센트로이드를 선택한 후, 해당 센트로이드에 속하는 토큰들에 대해서만 로짓을 계산합니다. 이는 lm_head 계산량을 O(V)에서 O(K * V/C)로 줄여줍니다 (V: 어휘 크기, K: top-k 센트로이드, C: 센트로이드 수).
- Before: 전체 어휘 크기(예: 262,144 토큰)에 대한 로짓 계산.
- After: 학습된 센트로이드(예: 2048개)와 top-k(예: 32개)를 사용하여 계산량을 O(4K) 수준으로 감소시킵니다.

# Before (Conceptual)
# logits = hidden_states @ lm_head_weight.T

# After (Conceptual)
# 1. Select top-k centroids from hidden_states
# 2. Identify candidate tokens within selected centroids
# 3. Compute logits only for candidate tokens
logits, indices = self._select_and_score(hidden_states, lm_head_weight)
# ... output is constructed using sparse logits and indices

KV 캐시 공유: 어시스턴트 모델의 디코더 레이어는 타겟 모델의 KV 캐시를 재사용합니다. 이는 vllm/v1/spec_decode/gemma4.py의 Gemma4Proposer에서 구현됩니다. Gemma4Proposer는 타겟 모델의 KV 캐시를 읽어와 어시스턴트 모델의 Q-only 어텐션 레이어에 공급합니다.

2. Gemma4Proposer:

이 클래스는 Speculative Decoding의 핵심 로직을 담당합니다. 타겟 모델과 어시스턴트 모델 간의 KV 캐시 공유를 설정하고, 어시스턴트 모델을 사용하여 여러 개의 토큰을 예측(draft)합니다.

KV 공유 설정:
- _update_positions_dependent_metadata 함수는 KV 캐시 공유를 위한 메타데이터를 업데이트합니다. 특히, 어시스턴트 모델의 레이어가 타겟 모델의 어떤 레이어와 KV 캐시를 공유할지 매핑합니다.
- Before: KV 캐시 공유 메타데이터 업데이트 로직 부재.
- After: Gemma 4 MTP 모델에 맞게 KV 캐시 공유 메타데이터를 설정합니다. 예를 들어, draft layer N (type) -> target_layer.self_attn.attn 와 같이 로그에 기록됩니다.

# Before (Conceptual)
# No specific handling for Gemma4 MTP KV sharing

# After (Conceptual)
# In Gemma4Proposer, KV cache sharing is explicitly wired:
# draft_layer_idx -> target_layer_idx mapping is established
# e.g., engine_log.info(f"Gemma4 MTP: draft layer {draft_layer_idx} ({layer_type}) -> target_layer.{target_layer_path}")

CUDA Graph 가속: E2B/E4B 어시스턴트 모델의 경우, 센트로이드 계산에 CUDA Graph를 사용하여 반복적인 연산의 오버헤드를 줄입니다. 이는 특히 작은 시퀀스 길이에 대해 성능 향상에 기여합니다.
Multi-Group Attention 지원: 슬라이딩 어텐션과 헤테로지니어스 헤드 차원을 가진 풀 어텐션 모두를 지원하여 다양한 모델 구성에 유연하게 대응합니다.

`vllm/config/speculative.py`: 설정 및 모델 등록

speculative_methods 리스트에 gemma4_mtp가 추가되어 새로운 Speculative Decoding 방법으로 등록됩니다.
hf_config_override 함수는 Hugging Face 모델 설정을 vLLM의 내부 설정으로 변환하는 과정에서 Gemma 4 어시스턴트 모델의 model_type을 gemma4_mtp로 재정의하고, num_kv_shared_layers를 0으로 설정하여 KV 캐시 공유가 프로포저에서 관리되도록 합니다.
use_gemma4_mtp() 함수는 현재 설정이 Gemma 4 MTP를 사용하는지 판별하는 로직을 추가합니다.

`vllm/transformers_utils/model_arch_config_convertor.py`: `get_hidden_size` 수정

get_hidden_size 함수가 Gemma 4 MTP 모델의 경우 backbone_hidden_size를 반환하도록 수정되었습니다. 이는 타겟 모델과 어시스턴트 모델 간의 차원을 올바르게 처리하기 위함입니다.

`vllm/v1/worker/gpu_model_runner.py`: `Gemma4Proposer` 통합

GPU 모델 러너에서 Gemma4Proposer를 Eagle, DFlash, DraftModel과 함께 통합하여 Speculative Decoding 파이프라인에 포함시킵니다.

`tests/v1/e2e/spec_decode/test_spec_decode.py`: 테스트 케이스 추가

Gemma 4 MTP 모델에 대한 정확성(correctness) 테스트 케이스가 추가되었습니다. 이를 통해 다양한 Gemma 4 변형 모델(E2B, E4B, 26B-A4B, 31B)과 어시스턴트 모델 조합이 올바르게 동작하는지 검증합니다.
특히, transformers 버전 >= 5.8.0 요구사항이 명시되었습니다. 이는 Gemma 4 모델 아키텍처를 올바르게 로드하기 위해 필요합니다.

`tests/models/registry.py`: 모델 레지스트리 업데이트

Gemma4MTPModel이 모델 레지스트리에 추가되어 vLLM이 Gemma 4 어시스턴트 모델을 인식하고 로드할 수 있도록 합니다.

리뷰 댓글 분석 및 반영

리뷰 과정에서 몇 가지 중요한 이슈가 발견되고 해결되었습니다:

intermediate_size 불일치 문제:
- @hospedales가 지적한 대로, Gemma 4 어시스턴트 모델의 config.json에서 intermediate_size가 text_config 내부에 중첩되어 있어, 최상위 레벨에서 접근 시 잘못된 값(4096 대신 8192가 필요)이 사용되는 문제가 있었습니다.
- 수정: vllm/model_executor/models/gemma4_mtp.py에서 _get_text_config 함수를 사용하여 text_config.intermediate_size를 올바르게 가져오도록 수정되었습니다.
```
-            intermediate_size=config.intermediate_size,
-            hidden_activation=config.hidden_activation,
+            intermediate_size=text_config.intermediate_size,
+            hidden_activation=text_config.hidden_activation,
```
양자화된 타겟 모델과 비양자화된 어시스턴트 모델 간의 quant_config 전파 문제:
- @hospedales가 발견한 두 번째 버그는 양자화된 타겟 모델(예: NVFP4)을 사용할 때, 타겟 모델의 quant_config가 어시스턴트 모델의 레이어(Attention, MLP 등)에 잘못 전파되어 발생하는 문제였습니다. 어시스턴트 모델은 일반적으로 비양자화된(BF16) 가중치를 사용하므로, 양자화 설정이 적용되면 가중치 로딩 시 shape 불일치로 인해 오류가 발생했습니다.
- 수정: 어시스턴트 모델의 Gemma4MTPAttention 및 Gemma4MLP 초기화 시 quant_config=None으로 명시하여, 타겟 모델의 양자화 설정을 상속받지 않도록 수정되었습니다. KV 캐시 관련 부분은 여전히 quant_config를 사용하여 양자화된 KV 캐시를 올바르게 처리합니다.
```
-            quant_config=quant_config,
+            quant_config=None,  # draft ships unquantized; do not inherit target quant
```
static_forward_context에서의 레이어 이름 충돌:
- @dssugar가 지적한 대로, Gemma4ForCausalLM 타겟 모델과 함께 사용할 때, 어시스턴트 모델의 레이어 이름(model.layers.X.self_attn.attn)이 타겟 모델의 레이어 이름과 충돌하여 ValueError: Duplicate layer name이 발생하는 문제가 있었습니다.
- 수정: 어시스턴트 모델의 __init__ 메서드에서 prefix를 `

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [flashinfer] FlashInfer, CUDA 그래프 호환성을 높이고 성능을 최적화하다: TRT-LLM FMHA v2 통합 및 불필요한 H2D 제거
현재글 : [vllm] vLLM, Gemma 4 모델에 양자화된 Speculative Decoding 적용: 성능 향상의 비밀
다음글 [sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화

댓글

관련 포스트

PR Analysis 의 다른글