[논문리뷰] MoVerse: Real-Time Video World Modeling with Panoramic Gaussian Scaffold

2026년 6월 11일수정: 2026년 6월 11일

링크: 논문 PDF로 바로 열기

저자: Yang Zhou, Ziheng Wang, Yuqin Lu, Haofeng Liu, Jun Liang, Shengfeng He, Jing Li

## 1. Key Terms & Definitions (핵심 용어 및 정의)

NFOV (Narrow-Field-Of-View): 좁은 시야각을 가진 일반적인 입력 이미지 형식을 의미합니다.
3DGS (3D Gaussian Splatting): 공간 내 기하학적 정보를 3D Gaussian으로 표현하여 실시간 렌더링이 가능한 explicit 3D representation 기법입니다.
ERP (Equirectangular Projection): 360도 환경을 평면으로 투영하는 구면 파노라마 데이터 포맷입니다.
MemRoPE: 긴 대화나 긴 시퀀스 생성 시 컨텍스트를 유지하기 위해 사용되는 로컬 Key-Value 캐시 관리 메커니즘입니다.
DMD (Distribution Matching Distillation): 복잡한 확산 모델(Diffusion Model)을 실시간 추론이 가능한 학생 모델로 증류하기 위한 학습 기법입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 단일 NFOV 이미지로부터 사용자가 자유롭게 이동하며 탐색할 수 있는 spatially persistent한 3D 환경을 생성하는 것을 목표로 합니다.
기존의 Explicit 3D 방식은 데이터 부족 환경에서 시각적 품질이 떨어지고, Implicit video 모델은 긴 경로 이동 시 기하학적 일관성(geometry consistency)이 무너지는 한계를 가집니다.
[Figure 1]에 묘사된 바와 같이, 저자들은 이를 해결하기 위해 세계 구축(World construction)과 관찰 렌더링(Observation rendering)을 분리하는 3단계 파이프라인인 MoVerse를 제안합니다.

Figure 1: 전체 파이프라인의 3단계 구조를 한눈에 보여주는 핵심 다이어그램

Figure 1 — 전체 파이프라인의 3단계 구조를 한눈에 보여주는 핵심 다이어그램

## 3. Method & Key Results (제안 방법론 및 핵심 결과)

MoVerse는 Stage I에서 NFOV 입력을 gravity-aligned 360도 ERP 파노라마로 확장하고, Stage II에서 이를 Panoramic 3D Gaussian scaffold로 변환하여 고정된 3D 기하 구조를 확보합니다.
Stage III에서는 bidirectional diffusion teacher를 통해 학습된 지식을 causal autoregressive student로 증류하여, 사용자의 카메라 궤적에 따라 실시간으로 고품질 영상을 스트리밍하는 Gaussian-conditioned video rendering을 수행합니다.
본 모델은 단일 NVIDIA RTX 4090 GPU 환경에서 8 FPS의 속도로 실시간 인터랙티브 로밍이 가능하며, 3D 기하 정보와 생성형 모델의 높은 시각적 품질을 동시에 달성합니다.
특히 MemRoPE 기반의 캐시 관리와 TAEHV 디코더를 활용하여 추론 지연 시간(latency)을 획기적으로 단축하였습니다.
[Figure 1] 및 [Figure 5]는 파이프라인의 모듈화된 설계를 보여주며, 이는 세계의 일관성을 유지하면서도 생성적인 시각 품질을 높이는 효율적인 방식임을 정량적으로 입증합니다.

Figure 5: Stage III의 실시간 렌더링 및 Causal autoregressive 추론 과정을 설명하는 핵심 구조도

Figure 5 — Stage III의 실시간 렌더링 및 Causal autoregressive 추론 과정을 설명하는 핵심 구조도

## 4. Conclusion & Impact (결론 및 시사점)

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글