[vLLM] MTP & DFlash: 다중 토큰 예측과 Flash 기반 드래프팅vLLM의 DFlash 투기적 디코딩 구현을 분석한다. 다중 토큰 예측(MTP)을 Flash Attention 기반으로 구현한 DFlashProposer의 핵심 로직을 살펴본다.#vllm#speculative-decoding#mtp#dflash#flash-attention2026년 4월 8일댓글 수 로딩 중