#Pre-training Objective

1개의 포스트

[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction

본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.

#Review #Next Token Prediction #Reinforcement Learning #Large Language Models #Reward Shaping #Pre-training Objective #Policy Gradient #Exploration-Exploitation

2026년 1월 4일