[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.#Review#Unified Policy Optimization#Reinforcement Learning#Reasoning-Driven Generation#Interleaved Generation#Flow Matching#Markov Decision Process#Classifier-Free Guidance#Reward Hacking2026년 3월 24일댓글 수 로딩 중