[논문리뷰] ConFu: Contemplate the Future for Better Speculative Sampling본 논문은 기존의 speculative decoding 드래프트 모델들이 현재 prefix에만 의존하여 예측하는 방식 때문에 발생하는 오류 누적 문제 를 해결하고자 합니다.#Review#Speculative Decoding#LLM Inference Acceleration#Draft Model#Future Prediction#Contemplate Tokens#Mixture-of-Experts#Token Acceptance Rate#Speedup Ratio2026년 3월 10일댓글 수 로딩 중