[vLLM] N-gram & Suffix Decoding: 모델 프리 드래프트별도 모델 없이 입력 시퀀스의 패턴만으로 드래프트 토큰을 생성하는 N-gram Proposer와 Suffix Decoding의 vLLM 구현을 분석한다.#vllm#speculative decoding#ngram#suffix decoding#numba2026년 4월 7일댓글 수 로딩 중