#Gradient Harmonization

1개의 포스트

[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL

본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Diffusion Models #Reinforcement Learning #Multi-Reward Optimization #Gradient Harmonization #Reward Balancing #Alignment

2026년 5월 7일