#Hybrid Annotation

1개의 포스트

[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models

대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Reward Model #Policy Optimization #Reward Hacking #Hybrid Annotation #Mathematical Reasoning #Verifiable Rewards

2025년 8월 14일