[논문리뷰] DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models본 논문은 기존의 멀티태스크 강화학습(RL) 방식이 겪는 최적화 간섭(Optimization Interference)과 성능 불균형 문제를 해결하기 위해 고안되었습니다.#Review#Diffusion Models#On-Policy Distillation#Multi-Task Reinforcement Learning#Flow Matching#Preference Alignment2026년 5월 14일댓글 수 로딩 중