[vLLM] Speculative Decoding: 드래프트 모델로 LLM 디코딩을 가속하는 원리작은 드래프트 모델이 여러 토큰을 미리 생성하고, 큰 타겟 모델이 한 번에 검증하는 Speculative Decoding의 vLLM 구현을 분석한다.#vllm#speculative-decoding#inference-acceleration#draft-model2026년 4월 7일댓글 수 로딩 중