[논문리뷰] Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

2026년 6월 4일수정: 2026년 6월 4일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Rui Zhao, Kaiming Yang, Jifeng Zhu, Siyang Chen, Ziqi Wang, Weijia Wu, Kevin Qinghong Lin, Heng Wang, Mike Zheng Shou

1. Key Terms & Definitions (핵심 용어 및 정의)

Dream.exe: 비디오 생성 모델이 생성한 영상 속 동작의 물리적 실행 가능성(Executability)을 평가하기 위해 제안된 벤치마크 프레임워크입니다.
Video-to-Execution Pipeline: 생성된 영상의 픽셀 단위 모션을 로봇 제어기가 이해할 수 있는 3D 궤적(Trajectory) 및 작업 흐름으로 변환하는 평가 과정입니다.
Physical Executability: 생성 모델이 인코딩한 물리적 지식이 로봇 제어기에 의해 실제 물리 시뮬레이션 환경에서 성공적으로 수행될 수 있는지에 대한 정량적 지표입니다.
RoboCasa365: 다양한 일상 작업 시나리오를 포함하는 대규모 로봇 시뮬레이션 프레임워크로, Dream.exe의 작업 테스트베드로 활용됩니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 비디오 생성 모델이 단순히 시각적으로 그럴듯한 영상을 만드는 수준을 넘어, 실제 물리 법칙을 내재화한 'World Model'로서의 기능을 수행하는지 검증하고자 합니다. 기존 연구들은 영상의 심미적 품질이나 Temporal Consistency만을 평가할 뿐, 해당 동작이 실제 물리 세계에서 수행 가능한지 여부는 간과하고 있습니다. 저자들은 시각적 우수성이 반드시 물리적 타당성을 보장하지 않는다는 점을 지적하며, 로봇 조작(Manipulation) 태스크를 통해 모델의 물리적 이해도를 측정하는 새로운 벤치마크 Dream.exe를 제안합니다 [Figure 1].

Figure 1: Dream.exe 태스크 스위트 개요

Figure 1 — Dream.exe 태스크 스위트 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 생성된 영상을 로봇 실행 가능한 액션 스트림으로 변환하는 4단계 파이프라인을 구축하였습니다. 먼저 모델이 생성한 영상에서 End-effector와 타겟 객체를 추적하고, Monocular Depth Estimation과 3D Point Lifting을 통해 3D 궤적을 복원합니다 [Figure 2]. 이후, 복원된 궤적을 Robosuite 시뮬레이터 상의 Franka Panda 로봇에 적용하여 최종적인 작업 성공률(Success Rate, SR)과 진행도(Progress Score, SR-P)를 측정합니다. 실험 결과, CosmosPolicy-BenchCam과 같은 로봇 전용 모델뿐만 아니라 Wan 2.7과 같은 범용 비디오 생성 모델 또한 주목할 만한 실행 성공률을 보였습니다. 그러나 분석 결과, 시각적 품질 평가 점수와 실제 로봇 실행 성공률 사이에는 낮은 상관관계가 있음이 확인되었습니다. 특히 Veo 3.1은 시각적 Task Adherence에서는 우수한 성능을 보였으나, 물리적 실행 성공률(SR-B)에서는 범용 모델들이 전반적으로 복잡한 멀티 스테이지 작업에서 한계를 보임을 증명하였습니다 [Table 3], [Table 4].

Figure 2: 평가 파이프라인 흐름도

Figure 2 — 평가 파이프라인 흐름도

4. Conclusion & Impact (결론 및 시사점)

본 연구는 영상 생성 모델의 물리적 실행 가능성을 평가하는 최초의 벤치마크로서, 시각적 fluency가 물리적 지식의 완벽한 지표가 아님을 실증적으로 증명했습니다. Dream.exe는 비디오 생성 모델이 차세대 로봇 정책(Robot Policy)을 위한 행동 사전(Behavioral Priors)으로 기능할 수 있는지에 대한 엄격한 기준을 제공합니다. 이 연구는 향후 비디오 생성 모델이 물리 시뮬레이터와 결합하여 더 범용적인 로봇 학습 모델로 발전하는 데 중요한 이정표가 될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning
현재글 : [논문리뷰] Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?
다음글 [논문리뷰] EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management