[논문리뷰] Direct Multi-Token Decoding본 논문은 대규모 언어 모델(LLM)의 비효율적인 계층 활용을 해결하여 추론 속도를 가속화하는 것을 목표로 합니다.#Review#LLM Inference#Multi-token Decoding#Transformer Architecture#Layer Specialization#Cyclical Refilling#Inference Speedup#Model Scaling2025년 10월 16일댓글 수 로딩 중