[논문리뷰] RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards본 논문은 Verifiable Reward(검증 가능한 보상)가 부재한 Open-ended 환경에서 Deep Research 에이전트를 효율적으로 학습시키는 문제를 해결하고자 한다.#Review#Meta-RL#Deep Research#Reinforcement Learning#Policy Decomposition#Rubric-guided#Stagewise Credit Assignment#Reflection Meta-Policy2026년 5월 12일댓글 수 로딩 중