#Rubric-based Rewards

2개의 포스트

[논문리뷰] Chasing the Tail: Effective Rubric-based Reward Modeling for Large Language Model Post-Training

본 논문은 LLM(Large Language Model) 포스트 트레이닝 과정에서 발생하는 보상 과적합(reward over-optimization) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #Reinforcement Fine-tuning #Reward Modeling #Reward Over-optimization #Rubric-based Rewards #High-reward Tail #Off-policy Data #LLM Alignment

2025년 9월 29일

[논문리뷰] Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

대규모 언어 모델(LLM)의 일반 추론 능력 향상에 있어 강화 학습(RL) 의 고질적인 탐색 병목 현상 을 해결하는 것입니다. 고품질 샘플 학습의 필요성과 LLM의 제한된 탐색 능력 사이의 딜레마를 극복하여, 탐색할 수 없는 것은 학습할 수 없다는 악순환을 끊는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Bottleneck #Instructional Scaffolding #Rubric-based Rewards #General Reasoning #RL with Verifiable Rewards #Policy Optimization

2025년 8월 26일