[논문리뷰] Current World Models Lack a Persistent State Core
링크: 논문 PDF로 바로 열기
메타데이터
저자: Jinpeng Lu, Dexu Zhu, Haoyuan Shi, et al.
1. Key Terms & Definitions (핵심 용어 및 정의)
- World-State Persistence: 관찰자(카메라)의 시야를 벗어난 상태에서도 독립적으로 물리적 사건이나 객체의 상태가 진화하고 유지되는 능력.
- Viewpoint Intervention: 카메라의 움직임을 통해 시야를 조절함으로써, 관찰되지 않는 상황에서의 세계 상태 유지력을 검증하는 실험적 개입 기법.
- WRBench: 비디오 생성 모델이 생성한 세계 모델이 시점 변화에도 불구하고 일관된 물리적 상태를 유지하는지 평가하기 위해 설계된 시스템적 진단 벤치마크.
- WRBenchLib: 다양한 생성 모델의 제어 조건(Camera Trajectory, Source Video 등)을 통합적으로 관리하고, 모델이 실제로 전달받은 입력과 생성 결과물 간의 대응 관계를 기록하는 툴킷.
- Attribution Problem: 비디오 내에서의 실패 원인(카메라 제어 실패 vs 세계 상태 유지 실패)을 명확히 구분하기 어려운 문제로, 이를 해결하기 위해 본 논문은 계층적 진단 체인을 사용함.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 현대의 World Models가 정교한 프레임을 생성할 수는 있으나, 관찰자가 보고 있지 않을 때에도 독립적으로 진화해야 하는 '지속적인 세계 상태(Persistent State Core)'를 결여하고 있다는 점을 지적합니다. [Figure 1] 기존의 많은 비디오 생성 및 World-Model 벤치마크들은 주로 시각적 충실도(Fidelity), 카메라 제어 가능성, 모션의 자연스러움 등에 집중할 뿐, 카메라가 시야를 벗어난 후 다시 돌아왔을 때 이전의 사건이 올바른 상태로 유지되고 있는지에 대해서는 평가하지 못합니다. 이러한 한계는 생성된 영상이 실제 물리적 인과관계를 이해하는 것이 아니라, 단순히 다음 프레임을 그럴듯하게 렌더링하는 것에 불과함을 시사하며, 이는 AGI로 나아가는 데 결정적인 장애물입니다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
저자들은 카메라 움직임을 Observability(관찰 가능성)에 대한 개입으로 간주하고, 시점 변화 전후의 상태 일관성을 계층적으로 평가하는 WRBench를 제안합니다. [Figure 2] 본 연구는 총 23개의 비디오 생성 모델을 9,600개의 비디오를 통해 평가하였으며, 평가 체계는 Requested-camera precision, Visual integrity, Visible consistency, Re-observation support, Re-observed spatial/state consistency의 6개 차원으로 구성됩니다. [Figure 3] 실험 결과, 모델의 파라미터 크기나 아키텍처가 반드시 세계 상태 유지력의 향상으로 이어지지는 않는다는 사실이 확인되었습니다. 예를 들어, Wan 모델 시리즈의 경우 파라미터를 1.3B에서 14B로 확장하였음에도 재관찰 시 상태 일관성 수치는 오히려 0.66에서 0.62로 하락하는 현상을 보였습니다. 반면 Lingbot-World는 가장 높은 가시적 상태 일관성(0.719)을 기록했으나, 카메라 제어 정밀도는 0.468에 그치는 등 모델 간의 성능 불균형이 뚜렷하게 나타났습니다. [Table 2]
4. Conclusion & Impact (결론 및 시사점)
본 논문은 현재의 World Models가 시각적 품질 측면에서는 비약적인 발전을 이루었으나, 보이지 않는 곳에서 지속적으로 변화하는 세계를 모델링하는 핵심 역량인 'Persistent State Core'는 여전히 부족함을 입증했습니다. 저자들은 단순한 픽셀 예측을 넘어, 숨겨진 변화를 기록하는 'what-memory'와 사건의 끝점(endpoint)을 보존하는 학습 목표가 차세대 World Model 설계에 필수적임을 역설합니다. 본 연구에서 제시한 WRBench는 향후 학계 및 산업계가 더욱 견고하고 물리적으로 일관된 세계 모델을 구축하는 데 중요한 이정표가 될 것으로 기대됩니다.
Part 2: 중요 Figure 정보

Figure 1 — WRBench의 시점 개입 개념도

Figure 2 — WRBench 방법론 개요

Figure 3 — 벤치마크 커버리지 및 진단 결과
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] EgoCS-400K: An Egocentric Gameplay Dataset for World Models
- [논문리뷰] YoCausal: How Far is Video Generation from World Model? A Causality Perspective
- [논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models
- [논문리뷰] Advancing Open-source World Models
- [논문리뷰] Goal Force: Teaching Video Models To Accomplish Physics-Conditioned Goals
Review 의 다른글
- 이전글 [논문리뷰] Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents
- 현재글 : [논문리뷰] Current World Models Lack a Persistent State Core
- 다음글 [논문리뷰] DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis
댓글