#High-reward Tail

1개의 포스트

[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Fine-tuning #Reward Modeling #Reward Over-optimization #Rubric-based Rewards #High-reward Tail #Off-policy Data #LLM Alignment

2025년 9월 29일