#LLM acceleration

1개의 포스트

[vLLM] Medusa: 다중 예측 헤드 투기적 디코딩

Medusa 투기적 디코딩의 vLLM 구현을 분석한다. 타겟 모델의 hidden state에서 다중 헤드로 드래프트 토큰을 생성하여 디코딩을 가속하는 방법을 코드 레벨에서 살펴본다.

#vllm #speculative decoding #medusa #LLM acceleration

2026년 4월 7일