[논문리뷰] MARBLE: Multi-Aspect Reward Balance for Diffusion RL본 논문은 diffusion model을 human preference에 맞게 미세 조정할 때, 여러 개의 reward를 동시에 최적화하는 과정에서 발생하는 성능 저하 문제를 해결하고자 합니다.#Review#Diffusion Models#Reinforcement Learning#Multi-Reward Optimization#Gradient Harmonization#Reward Balancing#Alignment2026년 5월 7일댓글 수 로딩 중