#Conflict Mitigation

1개의 포스트

[논문리뷰] GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

본 논문은 LLM의 다차원적 성능 향상을 위해 사용되는 Multi-Reward RL 환경에서 발생하는 Advantage 상쇄 문제를 해결하고자 한다.

#Review #Reinforcement Learning #Multi-Reward Optimization #Policy Optimization #Conflict Mitigation #Dynamic Filtering #Tool Calling #Alignment

2026년 6월 15일