[논문리뷰] MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

2026년 6월 14일수정: 2026년 6월 14일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

저자: Shengjun Zhang, Zhang Zhang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Video World Model: 단순히 시각적으로 그럴듯한 영상을 생성하는 것을 넘어, 물리 법칙과 환경의 동역학을 이해하고 장기적인 상태(State)를 유지하며 예측 및 상호작용을 수행하는 모델.
Memory Capability: 세계 모델이 시간적 흐름 속에서 환경의 일관성을 유지하고, 엔티티의 특성이나 인과 관계를 기억하는 핵심 능력.
Trigger-Conditioned Scoring: 모델이 의도적으로 어려운 메모리 챌린지를 회피하여 점수를 높이는 '보수적 생성' 문제를 방지하기 위해, 특정 상황(Trigger)이 발생했을 때의 일관성만을 측정하는 평가 방식.
SAM 2 (Segment Anything Model 2): 엔티티의 정밀한 공간적 마스크를 추출하여 객체 간 일관성을 평가하기 위해 사용된 기반 모델.
DINOv2: 생성된 영상 내 엔티티의 시각적 속성(질감, 색상 등)의 불변성을 평가하기 위해 특징 벡터(Feature Vector)를 추출하는 백본 모델.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 영상 생성 평가 벤치마크들이 영상 품질, 모션 일관성, 텍스트 정렬에만 집중할 뿐, 세계 모델의 핵심인 장기적 메모리(Long-term Memory) 능력을 과소평가하고 있다는 문제의식에서 출발한다 [Figure 1]. 기존 모델들은 단기적인 영상 생성에서는 우수한 성능을 보이나, 긴 시간 흐름이나 복잡한 상호작용 상황에서 엔티티의 정체성을 잃거나 환경 구조가 붕괴되는 현상을 보인다. 특히 대부분의 평가지표는 모델이 어려운 챌린지를 회피하며 정적인 영상을 생성할 경우 높은 점수를 얻을 수 있는 구조적 한계를 지닌다 [Table 1]. 이에 저자들은 세계 모델의 메모리 능력을 체계적으로 정량화할 수 있는 새로운 벤치마크인 MBench를 제안한다.

Figure 1: MBench의 3단계 위계 분류

Figure 1 — MBench의 3단계 위계 분류

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 메모리 능력을 Entity Consistency, Environment Consistency, Causal Consistency의 3단계 위계적 분류로 정의하고, 이를 12개의 세부 차원으로 정량화한다 [Figure 1]. 제안하는 평가 프레임워크는 VLM을 통해 메모리 트리거(예: 객체 가림, 카메라 이동 후 재등장)를 검증하고, 이를 성공적으로 수행한 샘플에 대해서만 Consistency Score를 계산한다 [Figure 2]. 최종 순위는 성공률(Coverage)과 일관성 점수(Reliability)의 조화 평균인 M-Score를 통해 결정되어, 모델의 실질적인 기억 유지 능력을 엄격히 평가한다 [Figure 3]. 실험 결과, 현재의 최첨단(SOTA) 비디오 세계 모델들은 시뮬레이션 지평이 확장됨에 따라 상당한 시간적 표류(Temporal Drift)와 '망각' 현상을 겪고 있음이 확인되었다. 특히 복잡한 물리적 인과 관계나 환경 구조 유지에 있어 시스템적인 취약점이 드러났다.

Figure 2: 평가 차원별 사례(엔티티)

Figure 2 — 평가 차원별 사례(엔티티)

Figure 3: 액션 기반 모델 프롬프트 통계

Figure 3 — 액션 기반 모델 프롬프트 통계

4. Conclusion & Impact (결론 및 시사점)

본 연구는 세계 모델의 메모리 능력을 다각도로 진단하는 표준화된 벤치마크 MBench를 구축하여, 이 분야가 단순한 시각적 생성에서 벗어나 진정한 의미의 '환경 시뮬레이션'으로 나아갈 수 있는 구체적인 연구 방향을 제시했다. 이 벤치마크는 학계와 산업계에서 차세대 비디오 세계 모델의 성능을 평가하고 개선하는 데 핵심적인 지침이 될 것으로 기대된다. 또한, 트리거 기반의 평가 방식은 향후 생성 AI 평가 연구에서 보수적 모델링 문제를 해결하는 효과적인 방법론으로 기여할 것이다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations
현재글 : [논문리뷰] MBench: A Comprehensive Benchmark on Memory Capability for Video World Models
다음글 [논문리뷰] Measuring Epistemic Resilience of LLMs Under Misleading Medical Context