[논문리뷰] A Benchmark for Interactive World Models with a Unified Action Generation Framework

2026년 5월 5일수정: 2026년 5월 5일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Jianjie Fang, Yingshan Lei, Qin Wan, Ziyou Wang, Yuchao Huang, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

Interactive World Models: 외부 액션 시퀀스(카메라 움직임, 키보드 입력 등)에 따라 인과적으로 일관된 환경 응답을 생성하고 에이전트와 양방향 소통이 가능한 모델입니다.
Action Generation Framework: 다양한 modality의 world model들을 통합적으로 평가하기 위해 액션 제어 공간을 정의하고, modality-agnostic한 인코딩을 통해 표준화된 평가를 가능하게 하는 프레임워크입니다.
Trajectory Following: world model이 주어진 camera control 명령을 얼마나 정확하게 따르는지 측정하는 제어 정밀도 지표입니다.
Memory Ability: '순환 경로(cyclic path)'를 이동했을 때 모델이 이전 상태를 얼마나 잘 기억하고 loop-closure를 수행하는지 평가하는 능력입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 대규모 데이터셋과 통합된 벤치마크의 부재로 인해 interactive world model의 물리적 상호작용 능력을 객관적으로 평가하기 어렵다는 문제를 해결하고자 합니다. 기존 연구들은 일반적인 video generation 모델에 치중되어 있거나 특정 로봇 작업에 한정되어 있어, interactive world model의 필수 요소인 다양한 환경 변수와 입력을 포괄적으로 다루지 못합니다. 특히 서로 다른 액션 modality(text, key, continuous trajectory)에 대한 정의가 파편화되어 있어 모델 간 공정한 비교가 불가능하다는 한계가 있습니다. 이에 저자들은 다양한 시나리오와 카메라 제어 방식을 포괄하는 새로운 평가 체계인 iWorld-Bench를 제안합니다 [Figure 1].

Figure 1: iWorld-Bench 프레임워크 개요

Figure 1 — iWorld-Bench 프레임워크 개요

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 저자들은 330,000개의 고품질 비디오 클립을 수집하고, 이를 4개의 시뮬레이터와 12개의 데이터셋으로부터 표준화하여 2,100개의 핵심 평가 영상을 선별했습니다. 액션 입력을 통합하기 위해 81개의 fundamental motion으로 구성된 Action Generation Framework를 구축하여 모든 모델에 동일한 제어 신호를 부여했습니다 [Figure 2]. 이를 바탕으로 6가지 난이도별 interactive task와 메모리 테스트를 포함한 4,900개의 샘플을 설계했습니다. 실험 결과, HY-World 1.5가 전반적인 상호작용 및 메모리 능력에서 0.7873의 점수로 가장 우수한 성능을 보였습니다. 또한, AC3D와 videox-fun-Wan은 camera parameter 제어 측면에서 강력한 Trajectory Following 능력을 입증했습니다 [Table 3]. 평가 결과, visual generation 품질과 action controllability 사이에는 명확한 trade-off가 존재함이 밝혀졌으며, 파라미터 기반 모델들이 고전적인 텍스트 제어 모델보다 조작 정밀도에서 압도적 우위를 점함을 확인했습니다 [Table 4].

Figure 2: 데이터 처리 파이프라인

Figure 2 — 데이터 처리 파이프라인

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 interactive world model의 상호작용 능력을 종합적으로 평가할 수 있는 최초의 표준화된 벤치마크 프레임워크인 iWorld-Bench를 제시합니다. 14개의 주요 모델에 대한 심층 평가를 통해 현재 모델들이 가진 강점과 한계를 분석하고, generation quality와 controllability 사이의 구조적 trade-off를 명확히 규명했습니다. 이 연구는 미래의 world model 개발에 있어 물리적 상호작용과 메모리 일관성을 개선할 수 있는 구체적인 지표와 데이터를 제공함으로써 학계 및 산업계의 embodied intelligence 발전에 중대한 기여를 할 것으로 기대됩니다.

Figure 3: 모델 성능 레이더 차트

Figure 3 — 모델 성능 레이더 차트

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning
현재글 : [논문리뷰] A Benchmark for Interactive World Models with a Unified Action Generation Framework
다음글 [논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

[논문리뷰] A Benchmark for Interactive World Models with a Unified Action Generation Framework

메타데이터

댓글

관련 포스트

Review 의 다른글