[논문리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization본 논문은 다중 보상(multi-reward) 설정에서 기존 Group Relative Policy Optimization (GRPO) 이 겪는 보상 신호 붕괴(reward signal collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Multi-reward RL#Policy Optimization#Reward Normalization#GRPO#GDPO#LLMs#Training Stability2026년 1월 8일댓글 수 로딩 중