[vLLM] N-gram & Suffix Decoding: 모델 프리 드래프트별도 모델 없이 입력 시퀀스의 패턴만으로 드래프트 토큰을 생성하는 N-gram Proposer와 Suffix Decoding의 vLLM 구현을 분석한다.#vllm#speculative decoding#ngram#suffix decoding#numba2026년 4월 7일댓글 수 로딩 중
[vLLM] Medusa: 다중 예측 헤드 투기적 디코딩Medusa 투기적 디코딩의 vLLM 구현을 분석한다. 타겟 모델의 hidden state에서 다중 헤드로 드래프트 토큰을 생성하여 디코딩을 가속하는 방법을 코드 레벨에서 살펴본다.#vllm#speculative decoding#medusa#LLM acceleration2026년 4월 7일댓글 수 로딩 중