[논문리뷰] UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models본 논문은 `UDM`과 `GRPO`를 안정적으로 통합하기 위해 UDM-GRPO 프레임워크를 제안합니다. 첫째, 모든 타임스텝에서 액션을 중간 예측치가 아닌 최종 정제 샘플 `x_hat_1`으로 재정의하여 보상 일관성과 최적화 정밀도를 높였습니다 .#Review#Uniform Discrete Diffusion Model#Reinforcement Learning#GRPO#Text-to-Image Generation#Policy Optimization#Distribution Alignment2026년 4월 21일댓글 수 로딩 중