[논문리뷰] GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization본 논문은 LLM의 다차원적 성능 향상을 위해 사용되는 Multi-Reward RL 환경에서 발생하는 Advantage 상쇄 문제를 해결하고자 한다.#Review#Reinforcement Learning#Multi-Reward Optimization#Policy Optimization#Conflict Mitigation#Dynamic Filtering#Tool Calling#Alignment2026년 6월 15일댓글 수 로딩 중