[vLLM] Medusa: 다중 예측 헤드 투기적 디코딩Medusa 투기적 디코딩의 vLLM 구현을 분석한다. 타겟 모델의 hidden state에서 다중 헤드로 드래프트 토큰을 생성하여 디코딩을 가속하는 방법을 코드 레벨에서 살펴본다.#vllm#speculative decoding#medusa#LLM acceleration2026년 4월 7일댓글 수 로딩 중