본문으로 건너뛰기

[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?

링크: 논문 PDF로 바로 열기

저자: Mingxin Liu, Shuran Ma, Shibei Meng, Xiangyu Zhao, Zicheng Zhang, Shaofeng Zhang, Zhihang Zhong, Peixian Chen, Haoyu Cao, Xing Sun, Haodong Duan, Xue Yang

핵심 연구 목표

본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다. 기존 평가 방식이 주로 시각적 품질과 시간적 일관성에 집중하는 한계를 극복하고, 모델의 심층적인 인지 추론 능력을 진단하고자 합니다.

핵심 방법론

RISE-Video 벤치마크는 경험적, 상식적, 시간적, 사회적, 지각적, 공간적, 주제별, 논리적 추론 등 8가지 엄격한 추론 범주 에 걸쳐 467개의 수작업으로 주석이 달린 샘플 로 구성됩니다. 평가는 추론 정렬(Reasoning Alignment) , 시간적 일관성(Temporal Consistency) , 물리적 합리성(Physical Rationality) , 시각적 품질(Visual Quality)네 가지 지표 를 사용합니다. 확장 가능한 평가를 위해 GPT-5 (시각적 품질은 GPT-5-mini )와 같은 대규모 멀티모달 모델(LMMs) 을 활용한 자동화된 평가 파이프라인을 제안하며, Schematic Puzzles 와 같은 특정 추론 작업에는 궤적 추적, 그리드 정렬 등 특수 전략을 적용합니다.

주요 결과

11개의 최신 TI2V 모델 에 대한 광범위한 평가 결과, 모든 모델은 암묵적 제약 조건 하의 복잡한 시나리오를 시뮬레이션하는 데 전반적인 결함 을 보였습니다. 최고의 성능을 보인 Hailuo 2.3 조차 전체 정확도 22.5% 에 그쳤으며, 모든 모델이 논리적 능력(Logical Capability) 에서 특히 낮은 점수를 기록했습니다. 제안된 LMM 기반 평가 파이프라인 은 인간 판단과 높은 수준의 일치도(예: Reasoning Alignment에서 GPT-50.11 MAE )를 보여 신뢰성과 비용 효율성을 입증했습니다.

AI 실무자를 위한 시사점

현재 비디오 생성 모델들이 시각적 사실성에도 불구하고 높은 수준의 암묵적 추론 능력 에서는 여전히 부족하다는 점을 명확히 합니다. 이는 추론 중심의 비디오 생성 모델 설계 및 훈련 의 필요성을 강조하며, RISE-Video 는 이러한 발전을 위한 중요한 진단 도구로 활용될 수 있습니다. LMMs 를 활용한 자동화된 평가는 대규모 모델의 빠른 검증을 가능하게 하지만, 특정 추론 문제에 대한 맞춤형 평가 전략의 중요성을 시사합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글