#Optimal Coefficient Calibration

1개의 포스트

[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration

본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.

#Review #Multi-Token Prediction #Reinforcement Learning #Optimization #Optimal Coefficient Calibration #Large Language Models #Mathematical Reasoning

2026년 5월 27일