#Multi-reward RL

1개의 포스트

[논문리뷰] GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

본 논문은 다중 보상(multi-reward) 설정에서 기존 Group Relative Policy Optimization (GRPO) 이 겪는 보상 신호 붕괴(reward signal collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-reward RL #Policy Optimization #Reward Normalization #GRPO #GDPO #LLMs #Training Stability

2026년 1월 8일