[논문리뷰] The Trinity of Consistency as a Defining Principle for General World Models

2026년 2월 26일수정: 2026년 2월 26일

링크: 논문 PDF로 바로 열기

저자: Jingxuan Wei, Siyuan Li, Cheng Tan, et al.

핵심 연구 목표

본 논문은 최신 생성 AI 모델들이 시각적으로 그럴듯한 결과물을 생성하지만, 물리 법칙과 인과 관계를 이해하는 데 한계를 보이는 문제를 해결하고자 합니다. 이를 위해 General World Model 의 필수 속성을 정의하는 "일관성의 삼위일체(Trinity of Consistency)" 라는 이론적 프레임워크를 제안하고, 실제 물리적 시뮬레이션 및 추론 능력을 갖춘 모델 개발을 위한 체계적인 분석과 평가 방법을 제시하는 것을 목표로 합니다.

핵심 방법론

연구는 모달(Modal) 일관성(Semantic Interface) , 공간(Spatial) 일관성(Geometric Basis) , 시간(Temporal) 일관성(Causal Engine) 의 세 가지 축을 중심으로 생성 모델의 진화를 체계적으로 분석합니다. 모달 일관성은 MM-DiT 및 RLHF 를 통한 정렬을, 공간 일관성은 NeRF/SDF 에서 3DGS 에 이르는 3D 표현 발전을, 시간 일관성은 Native Spatiotemporal Continuous DiT 및 논리적/인과적 추론으로의 전환을 설명합니다. 이러한 프레임워크를 검증하기 위해, 다중 프레임 추론 및 제약 조건 만족에 중점을 둔 통합 평가 벤치마크인 CoW-Bench 를 도입합니다.

주요 결과

CoW-Bench 평가 결과, GPT-image-1.5 가 평균 85.62% 로 가장 뛰어난 전체 성능을 보였고, Nano Banana Pro 가 82.57% 로 뒤를 이었습니다. 폐쇄형 이미지 생성 모델은 전반적으로 강점을 보였으나, 오픈 소스 비디오 생성 모델은 일관성 관련 태스크에서 뒤처지는 경향을 확인했습니다. 특히, 동적 환경에서의 영구적인 의미 일관성 및 모션 하에서의 전역적으로 고정된 공간 구조 유지 와 같은 교차 일관성 태스크 에서 대부분의 모델들이 현저한 성능 저하를 보였습니다.

AI 실무자를 위한 시사점

현재 생성 AI 모델은 시각적 사실성에 집중하고 있지만, 진정한 World Model 로 발전하려면 깊이 있는 물리적 이해와 인과적 추론 능력 을 갖추어야 합니다. CoW-Bench 는 기존 평가 방식이 놓치던 제약 조건 위반(constraint backoff) 및 객체 정체성 표류(identity drift) 와 같은 치명적인 실패 모드를 식별하여, AI 모델 개발자들이 보다 견고한 AGI 시스템을 구축하기 위한 명확한 목표를 제공합니다. 앞으로는 상호작용 가능한 월드 모델 과 실시간 물리 시뮬레이션 능력이 중요해질 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization
현재글 : [논문리뷰] The Trinity of Consistency as a Defining Principle for General World Models
다음글 [논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at Scale