[논문리뷰] Cooper: Co-Optimizing Policy and Reward Models in Reinforcement Learning for Large Language Models대규모 언어 모델(LLMs)의 추론 능력 강화를 위한 강화 학습(RL) 시, 기존 보상 모델(Reward Model, RM)이 직면하는 두 가지 주요 문제인 보상 해킹(reward hacking) 과 견고성 부족 을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Reward Model#Policy Optimization#Reward Hacking#Hybrid Annotation#Mathematical Reasoning#Verifiable Rewards2025년 8월 14일댓글 수 로딩 중