[논문리뷰] Direct Multi-Token DecodingXifeng Yan이 arXiv에 게시한 'Direct Multi-Token Decoding' 논문에 대한 자세한 리뷰입니다.#Review#LLM Inference#Multi-token Decoding#Transformer Architecture#Layer Specialization#Cyclical Refilling#Inference Speedup#Model Scaling2025년 10월 16일댓글 수 로딩 중