[논문리뷰] Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding본 논문은 기존의 Tree-based Speculative Decoding이 겪고 있는 속도와 정확도(MAT) 사이의 Pareto tradeoff 문제를 해결하고자 한다.#Review#Speculative Decoding#Tree Construction#Dynamic Pruning#Retrieval-based#GPU-resident#Budget Compensation#Long-context2026년 5월 19일댓글 수 로딩 중