[논문리뷰] MoRight: Motion Control Done Right

2026년 4월 8일수정: 2026년 4월 8일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Shaowei Liu, Xuanchi Ren, Tianchang Shen, Huan Ling, Saurabh Gupta, Shenlong Wang, Sanja Fidler, Jun Gao

1. Key Terms & Definitions (핵심 용어 및 정의)

Disentangled Motion Control : 카메라의 움직임과 객체의 움직임을 서로 독립적으로 제어하는 기술적 프레임워크입니다.
Motion Causality : 사용자 입력에 의한 '능동적 동작(Active Motion)'이 장면 내 객체들에 미치는 '수동적 결과(Passive Motion)'를 추론하는 인과 관계 모델링입니다.
Dual-stream Generation : Canonical 뷰에서의 객체 움직임 생성 스트림과 타겟 카메라 뷰 생성 스트림을 결합하여, 카메라와 객체 동작을 분리 제어하는 아키텍처입니다.
Motion Dropout : 학습 과정에서 능동적 동작과 수동적 결과 정보를 선택적으로 누락시켜, 모델이 동작 간의 인과 구조를 스스로 학습하도록 유도하는 방법론입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 비디오 생성 모델이 가진 카메라와 객체 동작의 얽힘(Entanglement) 문제와 인과 관계 추론의 부재를 해결하기 위해 MoRight 를 제안한다. 기존 연구들은 픽셀 기반의 트래킹 신호를 사용하므로 카메라 이동 시 모든 객체의 픽셀 궤적이 변하는 한계가 있어 정교한 동시 제어가 어렵다. 또한, 단순히 동작 궤적을 복제하는 것에 그쳐, 객체 간의 물리적 상호작용과 인과 관계를 반영하지 못한다. 이를 극복하기 위해 본 연구는 카메라와 객체 동작을 분리하고 물리적 인과성을 학습하는 통합 프레임워크를 개발하였다 [Figure 1].

Figure 1: MoRight 모델의 전체 개념

Figure 1 — MoRight 모델의 전체 개념

3. Method & Key Results (제안 방법론 및 핵심 결과)

MoRight 는 Canonical 정적 뷰에서 객체 움직임을 먼저 정의하고, 이를 Temporal Cross-view Attention 을 통해 타겟 카메라 뷰로 전송하는 이중 스트림 구조를 채택한다 [Figure 2]. 또한, motion을 Active (사용자 주도)와 Passive (인과적 결과) 요소로 분해하고 Motion Dropout 전략을 통해 학습함으로써, Forward(행동→결과) 및 Inverse(결과→행동) 인과 추론을 가능하게 한다 [Figure 3]. 성능 평가 결과, DynPose-100K 및 Cooking 벤치마크에서 기존 방법들 대비 뛰어난 동작 제어 정확도(EPE 지표 최상위)와 비디오 품질을 달성하였다. 특히 인간 평가 실험에서 Controllability (53.5%)와 Motion Realism (54.6%) 등 전 항목에서 경쟁 모델인 ATI 및 WanMove 를 유의미하게 상회하였다 [Figure 8].

Figure 2: 이중 스트림 모델 구조

Figure 2 — 이중 스트림 모델 구조

Figure 3: 능동적 및 수동적 동작

Figure 3 — 능동적 및 수동적 동작

4. Conclusion & Impact (결론 및 시사점)

본 논문은 카메라-객체 동작 분리와 물리적 인과성 학습을 결합한 통합 비디오 생성 프레임워크 MoRight 를 통해 대화형 비디오 생성의 새로운 기준을 제시한다. 이 연구는 사용자가 복잡한 물리 엔진 없이도 간단한 궤적 드로잉만으로 직관적인 장면 상호작용을 생성할 수 있게 한다. 향후 Embodied AI 에이전트의 미래 예측 시뮬레이션 및 고도화된 몰입형 콘텐츠 제작 분야에서 핵심적인 역할을 할 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MARS: Enabling Autoregressive Models Multi-Token Generation
현재글 : [논문리뷰] MoRight: Motion Control Done Right
다음글 [논문리뷰] Neural Computers