[논문리뷰] Reinforcement Learning with Rubric Anchors이 논문은 확인 가능한 보상(RLVR) 을 사용하는 기존 강화 학습 패러다임이 자동 검증이 가능한 특정 도메인(예: 수학, 코딩)에 국한되는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Rubric-based Reward#RLVR Extension#Human-centric AI#Controllable Generation#Reward Hacking Mitigation2025년 8월 19일댓글 수 로딩 중