[논문리뷰] Latent Spatial Memory for Video World Models

2026년 6월 8일수정: 2026년 6월 8일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Weijie Wang, Haoyu Zhao, Yifan Yang, Feng Chen, Zeyu Zhang, Yefei He, Zicheng Duan, Donny Y. Chen, Yuqing Yang, Bohan Zhuang

1. Key Terms & Definitions (핵심 용어 및 정의)

Latent Spatial Memory: RGB 픽셀 공간이 아닌 diffusion model의 latent space 내에 직접 3D 장면 정보를 저장하는 방식의 persistent 3D cache입니다.
Mirage: Latent spatial memory를 기반으로 하여 효율적이고 일관된 장시간 비디오 생성을 수행하는 비디오 월드 모델(Video World Model) 프레임워크입니다.
Depth-guided Back-projection: 심도 정보를 활용하여 latent 토큰을 3D 공간 상의 좌표와 결합함으로써 장면의 기하학적 구조를 구축하는 핵심 기법입니다.
ControlNet-style side branch: latent memory로부터 읽어온 특징 정보를 diffusion backbone에 주입하여 제어 가능성을 확보하는 아키텍처 구성 요소입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 비디오 월드 모델이 가진 3D 공간 일관성 유지의 한계와 과도한 계산 비용 문제를 해결하기 위해 Mirage를 제안한다. 기존 연구들은 RGB point cloud를 활용한 3D 메모리를 사용하는데, 이는 매 단계마다 렌더링(Rasterization)과 VAE 인코딩 과정을 거쳐야 하므로 계산 자원을 과도하게 소모한다 [Figure 2]. 또한, RGB 공간을 거치는 과정에서 latent 기반의 풍부한 특징 정보가 손실되며, 이는 기하학적 드리프트(Geometric drift)와 일관성 저하를 유발하는 근본적인 병목 지점이 된다. 따라서 pixel-space를 우회하여 직접적인 latent 기반의 공간 메모리 구축 방식이 필수적이다.

Figure 2: Latent 대 RGB 메모리 비교

Figure 2 — Latent 대 RGB 메모리 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 latent spatial memory를 도입하여 VAE 인코딩 및 렌더링 과정을 제거하고, 오직 latent 해상도 내에서 3D 정보를 관리하는 Mirage를 제안한다 [Figure 3]. Mirage는 초기 프레임을 latent 3D 포인트로 변환하여 메모리를 초기화한 뒤, 이후 각 청크마다 직접적인 latent-space warping을 통해 메모리를 읽어오며 ControlNet 구조를 통해 이를 생성 과정에 반영한다. 실험 결과, Mirage는 기존 RGB-cache 베이스라인 대비 최대 10.57× 빠른 end-to-end 비디오 생성 속도를 기록하였다 [Figure 1]. 또한, GPU 메모리 점유율을 55× 수준으로 낮추었으며, WorldScore 벤치마크에서 SOTA 성능을 달성하였다 [Table 1]. 특히, 장거리 탐색 후 원래 위치로 돌아오는 closed-loop 환경에서도 우수한 일관성을 유지함을 입증하였다 [Table 2].

Figure 1: Mirage 개요 및 성능 비교

Figure 1 — Mirage 개요 및 성능 비교

Figure 3: Mirage 프레임워크 아키텍처

Figure 3 — Mirage 프레임워크 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 논문은 latent spatial memory라는 효율적인 3D 표현 방식을 통해 비디오 생성의 기하학적 일관성과 효율성을 동시에 달성하였다. Mirage는 기존 RGB 기반 메모리 구조의 복잡한 연산 병목을 해소함으로써 장시간 생성 환경에서도 안정적인 성능을 보장한다. 이 연구는 비디오 월드 모델이 pixel-space 외부에서도 충분한 3D 기하학적 제약과 표현력을 가질 수 있음을 증명했다. 이는 향후 대규모 비디오 생성 모델이 실시간 수준의 인터랙티브 환경을 시뮬레이션하는 데 핵심적인 기술적 기반이 될 것으로 기대된다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Human Psychometric Questionnaires Mischaracterize LLM Behavior
현재글 : [논문리뷰] Latent Spatial Memory for Video World Models
다음글 [논문리뷰] LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents