#Unified Policy Optimization

1개의 포스트

[논문리뷰] UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

생성형 AI는 Interleaved Generation이 가능한 unified multimodal model로 빠르게 발전하고 있으며, 이는 반복적인 추론(iterative reasoning)을 통해 복잡한 이미지 합성(image synthesis) 작업을 해결할 잠재력을 제공합니다.

#Review #Unified Policy Optimization #Reinforcement Learning #Reasoning-Driven Generation #Interleaved Generation #Flow Matching #Markov Decision Process #Classifier-Free Guidance #Reward Hacking

2026년 3월 24일