#Multi-Token Prediction

4개의 포스트

[논문리뷰] MiMo-V2-Flash Technical Report

arXiv에 게시된 'MiMo-V2-Flash Technical Report' 논문에 대한 자세한 리뷰입니다.

#Review #Mixture-of-Experts #Sliding Window Attention #Multi-Token Prediction #Multi-Teacher On-Policy Distillation #Reinforcement Learning #Long-Context Modeling #Agentic AI

2026년 1월 6일

[논문리뷰] NVIDIA Nemotron 3: Efficient and Open Intelligence

arXiv에 게시된 'NVIDIA Nemotron 3: Efficient and Open Intelligence' 논문에 대한 자세한 리뷰입니다.

#Review #Hybrid Mamba-Transformer #Mixture-of-Experts #LatentMoE #NVFP4 Training #Multi-Token Prediction #Long Context #Reinforcement Learning #Open Models

2025년 12월 24일

[논문리뷰] Virtual Width Networks

arXiv에 게시된 'Virtual Width Networks' 논문에 대한 자세한 리뷰입니다.

#Review #Virtual Width Networks #Transformer #Mixture-of-Experts (MoE)#Scaling Laws #Representation Learning #Model Efficiency #Multi-Token Prediction #Hyper-Connections

2025년 11월 16일

[논문리뷰] Predicting the Order of Upcoming Tokens Improves Language Modeling

Alham Fikri Aji이 arXiv에 게시한 'Predicting the Order of Upcoming Tokens Improves Language Modeling' 논문에 대한 자세한 리뷰입니다.

#Review #Language Modeling #Next-Token Prediction #Multi-Token Prediction #Token Order Prediction #Auxiliary Objective #Learning-to-Rank #Transformer #Large Language Models

2025년 8월 28일