본문으로 건너뛰기

[논문리뷰] Unified Personalized Reward Model for Vision Generation

링크: 논문 PDF로 바로 열기

저자: Yibin Wang, Yuhang Zang, Feng Han, Yujie Zhou, Jiazi Bu, Cheng Jin, Jiaqi Wang

핵심 연구 목표

본 논문은 기존 멀티모달 보상 모델(RMs)이 "one-size-fits-all" 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다. 특히, 고정된 평가 기준과 단일 선호도 분포 가정을 탈피하여, 동적으로 평가 기준을 조정하는 개인화된 보상 모델을 제안합니다.

핵심 방법론

제안된 UNIFIEDREWARD-FLEX 는 프롬프트와 시각적 콘텐츠를 기반으로 계층적 평가 구조 를 동적으로 구성하여 문맥 적응적 추론을 수행합니다. 훈련은 두 단계로 진행되는데, 첫째, GPT-5.2 와 같은 클로즈드 소스 VLM 에서 추출한 추론 트레이스를 활용하여 supervised fine-tuning (SFT) 을 통해 문맥 적응적 추론 능력을 부여합니다. 둘째, Direct Preference Optimization (DPO) 을 통해 인간 선호도 및 추론 품질을 반영한 선호 쌍을 정렬하여 모델의 차별 능력을 강화합니다.

주요 결과

UNIFIEDREWARD-FLEX 는 이미지 및 비디오 생성 보상 모델 벤치마크에서 기존 강력한 베이스라인을 일관되게 능가했습니다. 특히, 이미지 생성에서는 MMRB2 벤치마크에서 UnifiedReward-Think 대비 +3.2점 , 비디오 생성에서는 GenAI-Bench-Video 벤치마크에서 +2.2점 향상된 성능을 기록했습니다. UniGenBench 에서 이미지 생성 시 전반적인 의미 일관성에서 기본 모델 대비 +14.56점 개선을 보였으며, 비디오 생성 시 Dynamic Degree 점수를 58.6에서 70.8로 크게 향상시켰습니다.

AI 실무자를 위한 시사점

본 연구는 고정된 평가 기준을 넘어 다양한 프롬프트 의도와 시각적 증거에 따라 평가 기준을 유연하게 조정하는 개인화된 보상 모델 의 중요성을 강조합니다. VLM 증류 및 DPO 기반의 투-스테이지 학습 접근 방식 은 복잡한 시각 생성 태스크에서 강력하고 문맥 인식적인 보상 신호를 제공하는 효과적인 방법론임을 보여줍니다. 이를 GRPO 프레임워크 에 통합하여 생성 모델의 품질과 사용자 만족도를 대폭 향상 시킬 수 있으며, 특히 동적인 움직임이나 복잡한 구성이 요구되는 경우에 유용합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글