[논문리뷰] Video Models Can Reason with Verifiable Rewards
링크: 논문 PDF로 바로 열기
메타데이터
저자: Tinghui Zhu, Sheng Zhang, James Y. Huang, Selena Song, Xiaofei Wen, Yuankai Li, Hoifung Poon, Muhao Chen
1. Key Terms & Definitions (핵심 용어 및 정의)
- VideoRLVR: 비디오 확산 모델(Diffusion Models)에 규칙 기반 피드백을 적용하여 비디오 추론 능력을 최적화하는 프레임워크입니다.
- SDE-GRPO: 결정론적 ODE 샘플러를 확률적 SDE(Stochastic Differential Equation)로 변환하여 GRPO(Group Relative Policy Optimization)를 수행하는 최적화 기법입니다.
- Early-Step Focus: 노이즈 제거 과정 중 초반 단계에만 경사 하강법과 확률적 섭동을 집중시켜 연산 효율을 높이는 전략입니다.
- Verifiable Rewards: 태스크의 논리적 규칙(예: Maze 연결성, Sokoban의 상자 이동 규칙)을 만족하는지를 자동으로 검증하여 보상을 산출하는 방식입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존의 비디오 생성 모델이 시각적 사실성(Perceptual Realism)은 뛰어나지만, 특정 논리적 제약을 만족해야 하는 추론 문제 해결에는 한계가 있다는 점을 지적합니다. 기존의 지도 학습(SFT) 방식은 생성된 영상의 외형적 패턴을 모방할 뿐, 영상 내부의 물리적·논리적 올바름을 보장하지 못합니다 [Figure 1]. 이러한 '지각적 사실성'과 '객관적 올바름' 사이의 불일치를 해결하기 위해, 연구진은 비디오 생성 과정을 단순한 모션 합성이 아닌 '시각적 상태의 연쇄 추론'으로 재정의하고, 객관적 보상을 통한 최적화 프레임워크를 제안합니다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
저자들은 비디오 추론 성능을 향상시키기 위해 VideoRLVR 프레임워크를 설계하였습니다. 이 모델은 SDE-GRPO 최적화 백본을 사용하여 확률적 샘플링과 정책 기울기 업데이트를 구현하며, Early-Step Focus 전략을 통해 전체 20단계의 노이즈 제거 과정 중 초반 10단계에만 최적화를 집중시켜 훈련 시간을 약 40% 단축하였습니다. 또한, 태스크별로 구조적 구성 요소를 분해한 Dense Decomposed Rewards를 도입하여, 성공률이 낮은 도메인에서도 모델이 의미 있는 피드백을 받을 수 있도록 설계하였습니다.
실험 결과, 제안 모델은 Maze, FlowFree, Sokoban 도메인에서 SFT 베이스라인 대비 성공률(SR)을 각각 6.1%, 5.5%, 3.2% 개선하였습니다 [Table 1]. 특히, 과제 난이도가 높아질수록 일반적인 SFT 모델보다 뛰어난 성능 견고성을 보이며, 외부 도메인(Out-of-Domain) 일반화 능력에서도 더 큰 크기의 모델들과 대등한 결과를 나타내었습니다. 또한, Early-Step Focus 전략은 성능 저하 없이 훈련 효율성을 획기적으로 향상시켰음을 입증하였습니다 [Table 4].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 검증 가능한 보상(Verifiable Rewards)을 활용한 강화학습이 비디오 생성 모델을 단순한 콘텐츠 제작 도구에서 신뢰할 수 있는 시각적 추론 시스템으로 진화시킬 수 있음을 입증하였습니다. VideoRLVR 프레임워크는 대규모 언어 모델의 추론 기법을 비디오 도메인으로 성공적으로 확장하며, 규칙 준수가 필수적인 로봇 제어, 복합 추론 과제 등에서 비디오 생성 모델의 실용성을 크게 높였습니다. 이는 향후 비디오 기반 에이전트 모델이 물리적 세계와 규칙을 이해하고 추론하는 능력을 갖추는 데 핵심적인 토대가 될 것입니다.
Part 2: 중요 Figure 정보

Figure 1 — 추론 모델로의 진화 과정

Figure 2 — 미로 크기에 따른 성공률 비교

Figure 4 — 도메인별 정성적 비교 결과
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward
- [논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models
- [논문리뷰] MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
- [논문리뷰] What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
- [논문리뷰] PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning
Review 의 다른글
- 이전글 [논문리뷰] TideGS: Scalable Training of Over One Billion 3D Gaussian Splatting Primitives via Out-of-Core Optimization
- 현재글 : [논문리뷰] Video Models Can Reason with Verifiable Rewards
- 다음글 [논문리뷰] When Vision Speaks for Sound
댓글