[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.#Review#Next Token Prediction#Reinforcement Learning#Large Language Models#Reward Shaping#Pre-training Objective#Policy Gradient#Exploration-Exploitation2026년 1월 4일댓글 수 로딩 중