[논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer

2026년 5월 14일수정: 2026년 5월 14일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Haoyi Zhu, Haozhe Liu, Yuyang Zhao, Tian Ye, Junsong Chen, Jincheng Yu, Tong He, Song Han, Enze Xie

1. Key Terms & Definitions (핵심 용어 및 정의)

SANA-WM: 2.6B 파라미터 규모의 오픈소스 월드 모델로, 효율적인 1분 분량의 720p 영상 생성과 정확한 6-DoF 카메라 제어를 위해 설계됨.
Gated DeltaNet (GDN): 기존의 소프트맥스 어텐션 대신 순환형(Recurrent) 상태 업데이트를 통해 긴 문맥의 정보를 효율적으로 처리하면서도 메모리 사용량을 일정하게 유지하는 기법.
UCPE (Unified Camera Positional Encoding): 카메라의 6-DoF 위치 및 방향 정보를 영상 생성 모델의 어텐션 메커니즘 내에 통합하여 정교한 카메라 움직임을 제어하는 방식.
Plücker Mixing: Raw-frame 수준에서 카메라의 플뤼커(Plücker) 좌표를 임베딩하여, UCPE가 처리하지 못하는 세밀한 국소적 카메라 움직임을 보정하는 기법.
Two-Stage Generation Pipeline: 1단계에서 생성된 영상을 기반으로, 2단계 refiner를 통해 구조적 결함이나 디테일을 보정하여 영상 품질과 일관성을 높이는 파이프라인.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 1분 이상의 고해상도 영상을 생성할 때 발생하는 높은 컴퓨팅 비용과 긴 시간 동안의 시각적·기하학적 일관성 유지 문제를 해결하고자 한다. 기존의 월드 모델 연구들은 대규모 데이터와 컴퓨팅 자원을 요구하며, 다수의 GPU 환경이 필수적인 경우가 많아 학계나 일반 연구자들이 접근하기 어렵다는 한계가 있다. 또한, 단순히 텍스트에만 의존하는 모델은 정밀한 6-DoF 카메라 경로를 따라야 하는 임무에서 제어 성능이 떨어지는 문제점이 존재한다. 이에 따라 연구자들은 효율성을 최우선 목표로 삼아, 1분 분량의 영상을 단일 GPU 환경에서도 생성 가능한 고성능 모델을 제안한다 [Figure 1].

Figure 1: SANA-WM의 생성 결과 티저

Figure 1 — SANA-WM의 생성 결과 티저

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 효율적인 1분 분량 영상 생성을 위해 하이브리드 아키텍처와 기하학적 제어 기법을 결합한 SANA-WM을 제안한다. 첫째, Hybrid Linear Attention 구조를 통해 15개의 프레임 단위 GDN 블록과 5개의 소프트맥스 어텐션 블록을 교차 배치함으로써 긴 컨텍스트에 대한 기억력과 계산 효율성을 동시에 달성하였다 [Figure 2]. 둘째, Dual-Branch Camera Control을 통해 Latent 기반의 UCPE로 전역 경로를 제어하고, Plücker Mixing으로 국소적 카메라 모션을 정교화하였다. 셋째, Two-Stage Generation Pipeline을 적용하여 1단계 생성 결과의 시각적 품질을 최종 단계에서 향상시켰다.

Figure 2: SANA-WM의 전체 아키텍처

Figure 2 — SANA-WM의 전체 아키텍처

실험 결과, SANA-WM은 이전 오픈소스 모델들 대비 강력한 액션 추적 정확도를 달성하였으며, 특히 비주얼 품질 지표(VBench Overall)에서 대형 산업용 베이스라인인 LingBot-World와 대등한 수준을 보였다 [Table 2]. 효율성 면에서는 36배 높은 처리량(Throughput)을 달성하였으며, NVFP4 양자화된 증류(Distilled) 모델을 활용할 경우 RTX 5090 단일 GPU에서 34초 만에 60초 분량의 720p 영상을 생성할 수 있다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 고성능 월드 모델의 대중화를 위해 효율성을 극대화한 아키텍처를 제시함으로써 embodied AI와 로보틱스 분야에서의 시뮬레이션 및 상호작용 연구 접근성을 대폭 개선하였다. SANA-WM의 하이브리드 어텐션과 이중 분기 카메라 제어 기법은 긴 시퀀스를 처리해야 하는 비디오 모델링의 새로운 이정표가 될 것이다. 다만, 모델의 스케일 제한 및 복잡한 동적 장면에서의 잠재적 드리프트 문제는 향후 보완되어야 할 과제로 남아 있다. 이 연구는 앞으로의 학술 연구자들이 제한된 컴퓨팅 자원으로도 정교한 공간 제어가 가능한 시뮬레이터를 개발하는 데 큰 기여를 할 것으로 기대된다.

Figure 3: 데이터 구축 파이프라인

Figure 3 — 데이터 구축 파이프라인

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] RouteProfile: Elucidating the Design Space of LLM Profiles for Routing
현재글 : [논문리뷰] SANA-WM: Efficient Minute-Scale World Modeling with Hybrid Linear Diffusion Transformer
다음글 [논문리뷰] SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks