[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.#Review#Multi-Token Prediction#Reinforcement Learning#Optimization#Optimal Coefficient Calibration#Large Language Models#Mathematical Reasoning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] MiMo-V2-Flash Technical Report본 논문은 빠른 추론 속도와 강력한 추론 및 에이전트 능력을 동시에 갖춘 효율적이고 비용 효율적인 대규모 언어 모델(LLM)인 MiMo-V2-Flash를 개발하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Sliding Window Attention#Multi-Token Prediction#Multi-Teacher On-Policy Distillation#Reinforcement Learning#Long-Context Modeling#Agentic AI2026년 1월 6일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron 3: Efficient and Open IntelligenceNemotron 3 가족 모델(Nano, Super, Ultra)을 공개하여 강력한 agentic, 추론, 대화 능력 을 제공하는 효율적인 오픈 모델을 구축하는 것이 목표입니다.#Review#Hybrid Mamba-Transformer#Mixture-of-Experts#LatentMoE#NVFP4 Training#Multi-Token Prediction#Long Context#Reinforcement Learning#Open Models2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Virtual Width Networks본 논문은 Transformer 모델의 히든 차원을 늘릴 때 발생하는 Quadratic한 계산 비용 문제를 해결하면서도, 더 넓은 표현(wider representations)이 제공하는 이점을 얻는 것을 목표로 합니다.#Review#Virtual Width Networks#Transformer#Mixture-of-Experts (MoE)#Scaling Laws#Representation Learning#Model Efficiency#Multi-Token Prediction#Hyper-Connections2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Predicting the Order of Upcoming Tokens Improves Language Modeling기존 Multi-Token Prediction (MTP) 이 정확한 미래 토큰 예측의 어려움으로 인해 보조 목표로서 불일치한 성능을 보이는 문제를 해결하고자 합니다.#Review#Language Modeling#Next-Token Prediction#Multi-Token Prediction#Token Order Prediction#Auxiliary Objective#Learning-to-Rank#Transformer#Large Language Models2025년 8월 28일댓글 수 로딩 중