[논문리뷰] Pref-GRPO: Pairwise Preference Reward-based GRPO for Stable Text-to-Image Reinforcement Learning본 논문은 텍스트-투-이미지(T2I) 생성에서 기존 GRPO(Group Relative Policy Optimization) 기반 강화 학습 방법론이 겪는 보상 해킹(reward hacking) 문제를 해결하고, 보다 안정적인 훈련 패러다임을 확립하는 것을 목표로 합니다.#Review#Reinforcement Learning#Text-to-Image Generation#GRPO#Reward Hacking#Pairwise Preference#Reward Model#Stable Optimization#UniGenBench2025년 8월 29일댓글 수 로딩 중