[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

2026년 4월 15일수정: 2026년 4월 15일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Haozhe Wang, Cong Wei, Weiming Ren, Jiaming Liu, Fangzhen Lin, Wenhu Chen

1. Key Terms & Definitions (핵심 용어 및 정의)

RationalRewards: 인간의 선호도를 단일 스칼라 점수가 아닌 다차원적이고 구조화된 자연어 비평(Rationale)으로 변환하는 추론 기반의 보상 모델입니다.
PARROT (Preference-Anchored Rationalization): 비싼 수동 주석 없이도 온라인 상의 비교 데이터로부터 고품질의 추론 rationales를 추출하고 학습하기 위한 변분(Variational) 프레임워크입니다.
Generate–Critique–Refine (GCR) Loop: 모델이 생성된 이미지를 비평하고, 그 결과를 바탕으로 프롬프트를 수정하여 재생성함으로써 매개변수 수정 없이 출력 품질을 최적화하는 테스트 타임 기법입니다.
DiffusionNFT: 확산 모델을 위한 온라인 강화학습(RL) 프레임워크로, 보상 모델의 출력을 기반으로 모델의 방향성(Velocity-field)을 조정하여 생성 성능을 개선합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다. 기존의 블랙박스 보상 모델은 생성 모델이 보상 모델의 편향을 이용해 실제 품질 향상 없이 점수만 높이는 'Reward Hacking'에 취약하다는 치명적인 한계가 있습니다 [Figure 3]. 이러한 구조적 결함을 극복하기 위해, 본 연구는 보상 모델이 결과를 도출하기 전 추론 과정을 명시적으로 생성하게 하여, 생성 모델의 성능을 향상시키는 구조적 가이드를 제공하고자 합니다.

Figure 3: Reward Hacking 저항성 비교

Figure 3 — Reward Hacking 저항성 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 PARROT 프레임워크를 통해 preference 데이터에서 rationales를 추출하여 학생 모델인 RationalRewards(8B)를 학습시킵니다. PARROT은 Hindsight(사후 추론) 단계에서 preference label을 활용해 신뢰할 수 있는 rationales를 생성하고, Consistency Filtering을 거쳐 학습 데이터를 정제하며, Foresight(선행 추론) 단계에서 이를 지식 증류하여 학생 모델이 자율적으로 추론할 수 있도록 합니다 [Figure 4]. 제안된 RationalRewards(8B)는 오픈 소스 보상 모델 중 SOTA(State-of-the-Art) 성능을 달성하였으며, Gemini-2.5-Pro와 경쟁 가능한 Preference Prediction 정확도를 보여줍니다 [Table 1]. 또한, RationalRewards를 활용한 RL Fine-tuning은 기존 scalar 보상 모델 대비 뚜렷한 성능 향상을 보였으며, 매개변수 수정 없이 작동하는 GCR Loop만으로도 RL 기반 fine-tuning의 성능을 능가하는 결과를 달성하였습니다 [Figure 6, Table 3].

Figure 4: PARROT 학습 파이프라인

Figure 4 — PARROT 학습 파이프라인

4. Conclusion & Impact (결론 및 시사점)

본 연구는 시각 생성 분야에서 보상 모델의 패러다임을 스칼라 회귀에서 구조화된 추론으로 전환하였으며, 이는 생성 모델의 학습과 테스트 타임 모두에서 효과적인 성능 최적화를 가능하게 했습니다. 제안된 방법론은 모델의 투명성을 높이고 'Reward Hacking'을 방지할 뿐만 아니라, 추가적인 매개변수 업데이트 없이도 모델의 잠재력을 최대한 끌어낼 수 있는 테스트 타임 컴퓨팅 최적화의 가능성을 제시합니다. 본 연구 결과는 향후 더 정밀하고 인간의 선호도와 밀접하게 정렬된 생성 AI 시스템을 구축하는 데 중요한 기반이 될 것으로 전망됩니다.

Figure 2: 제안 모델 아키텍처 및 Dual-Space 최적화

Figure 2 — 제안 모델 아키텍처 및 Dual-Space 최적화

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models
현재글 : [논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time
다음글 [논문리뷰] Seedance 2.0: Advancing Video Generation for World Complexity