#speculative decoding

2개의 포스트

[vLLM] N-gram & Suffix Decoding: 모델 프리 드래프트

별도 모델 없이 입력 시퀀스의 패턴만으로 드래프트 토큰을 생성하는 N-gram Proposer와 Suffix Decoding의 vLLM 구현을 분석한다.

#vllm #speculative decoding #ngram #suffix decoding #numba

2026년 4월 7일

[vLLM] Medusa: 다중 예측 헤드 투기적 디코딩

Medusa 투기적 디코딩의 vLLM 구현을 분석한다. 타겟 모델의 hidden state에서 다중 헤드로 드래프트 토큰을 생성하여 디코딩을 가속하는 방법을 코드 레벨에서 살펴본다.

#vllm #speculative decoding #medusa #LLM acceleration

2026년 4월 7일