[논문리뷰] YoCausal: How Far is Video Generation from World Model? A Causality Perspective

2026년 5월 28일수정: 2026년 5월 28일

링크: 논문 PDF로 바로 열기

메타데이터

저자: You-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Violation of Expectation (VoE): 인지 과학에서 유래한 개념으로, 예상치 못한 상황(counterfactual)에 대한 인지적 놀람 반응을 측정하여 모델의 인지 모델 형성 여부를 평가하는 프레임워크.
Reverse Surprise Index (RSI): 비디오의 시간적 순서를 반전시켰을 때 발생하는 Denoising Loss의 변화를 측정하여, 모델이 '시간의 화살(arrow of time)'을 인지하는지 수치화한 지표.
Causality Cognition Index (CCI): 인과관계가 존재하는 비디오와 그렇지 않은 비디오 간의 RSI 차이를 계산하여, 모델의 단순한 시간적 패턴 인지와 진정한 인과적 추론 능력을 분리(disentangle)하는 지표.
Video Diffusion Models (VDMs): 본 논문에서 World Model로서의 가능성을 평가하는 핵심 대상인 생성 모델 아키텍처.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 최신 Video Diffusion Models (VDMs)가 진정한 의미의 세계 모델(World Model)로 발전하고 있는지, 아니면 단순히 통계적 시간 패턴을 과적합(overfit)하고 있는지를 검증하고자 합니다. 기존의 물리적 commonsense 평가 연구들은 주로 합성 데이터(synthetic data)에 의존하여 실제 세계에 대한 일반화 능력을 평가하는 데 한계가 있으며, 이는 Sim-to-Real gap을 발생시킵니다 [Table 1]. 저자들은 이러한 한계를 극복하기 위해 실제 비디오를 temporally reversing하여 자연스러운 counterfactual 샘플을 확보하는 새로운 평가 프레임워크 YoCausal을 제안합니다 [Figure 2].

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 인지 과학의 VoE 패러다임을 차용하여, Denoising Loss를 놀람(surprise)의 대리 지표로 활용하는 2단계 평가 프레임워크를 제안합니다 [Figure 3]. 1단계인 RSI는 모델이 정방향과 역방향 비디오를 구분하는 능력을 평가하고, 2단계인 CCI는 VLM을 사용하여 데이터를 인과적(causal) subset과 비인과적(non-causal) subset으로 분할한 뒤 각 subset의 RSI 차이를 통해 인과적 추론 능력만을 분리해냅니다 [Figure 4]. 13개의 최신 VDMs를 대상으로 실험한 결과, 모델이 시간의 흐름(arrow of time)을 인지한다고 해서 반드시 인과관계(causality)를 이해하는 것은 아님을 확인했습니다 [Figure 6, Figure 7]. 정량적 지표 분석 결과, 인과적 추론 능력은 모델의 파라미터 수 및 출시일과 강한 상관관계(각각 Kendall's τ=0.688, τ=0.596)를 보이며 스케일링 법칙(Scaling Laws)을 따르는 것으로 나타났습니다 [Table 2]. 또한, 인간의 인과적 선호도와 중등도의 상관관계(τ=0.3333)를 보였으나, 미학적 품질(Aesthetic Quality)과는 상관관계가 없음(τ=0.0000)을 확인하여 본 프레임워크의 고유한 평가 능력을 입증했습니다 [Table 2].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 YoCausal을 통해 비디오 생성 모델의 인과적 인지 능력을 평가할 수 있는 최초의 확장 가능한 실세계 비디오 벤치마크를 제시합니다. 실험 결과, 현재의 개방형 VDMs는 여전히 인간의 인과적 인지 수준과 상당한 격차를 보이고 있으며, 인과적 이해는 물리적 직관과는 다른 별도의 독립적인 역량임을 시사합니다. 이 연구는 향후 세계 모델로서의 AI를 개발함에 있어 인과적 추론을 핵심적인 목표로 삼아야 함을 강조하며, 학계와 산업계에 모델 아키텍처 설계 및 학습 데이터 구축을 위한 중요한 평가 프로토콜을 제공합니다.

Part 2: 중요 Figure 정보

Figure 2: YoCausal 개념 요약

Figure 2 — YoCausal 개념 요약

Figure 3: YoCausal 평가 프레임워크

Figure 3 — YoCausal 평가 프레임워크

Figure 4: CCI 산출 방식

Figure 4 — CCI 산출 방식

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction
현재글 : [논문리뷰] YoCausal: How Far is Video Generation from World Model? A Causality Perspective
다음글 [논문리뷰] minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models