본문으로 건너뛰기

[논문리뷰] Holo-World: Unified Camera, Object and Weather Control for Video World Model

링크: 논문 PDF로 바로 열기

저자: Xiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

  • HoloStateData: 카메라, 객체, 날씨 제어를 위한 통합 컨트롤 샘플을 제공하기 위해 구축된 state video 데이터셋입니다.
  • UniSA (Unified Scene Adapter): Wan 비디오 백본을 동결한 상태에서 world preservation(배경 보존)과 weather transfer(날씨 전이)를 위한 독립적인 잔차(residual) 하위 공간을 학습하는 어댑터 인터페이스입니다.
  • SW-CFG (Scene-Weather Decomposed CFG): 샘플링 시 배경 구조 보존을 위한 잔차와 날씨 효과 강화를 위한 잔차를 분리하여 가이드하는 제어 기법입니다.
  • Source-to-State Setting: 첫 번째 프레임에서 시작하여 explicit 카메라 및 객체 제어와 날씨 명령에 따라 비디오를 생성하는 모델 설정입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 연구는 비디오 월드 모델에서 카메라, 객체 동역학, 그리고 날씨 상태를 단일 인터페이스로 통합 제어하는 과정에서 발생하는 데이터 부족과 모델링 충돌 문제를 해결하고자 합니다. 기존의 비디오 생성 기법들은 카메라 제어, 객체 조작, 날씨 편집이 서로 격리되어 발전해 왔으며, 특히 날씨 생성은 이미 미래의 레이아웃이나 구조가 명시된 완벽한 소스 비디오에 의존하는 Video-to-Video 편집 방식이 주를 이루었습니다. 이러한 방식은 단일 이미지로부터 출발하여 제어 가능한 월드를 합성해야 하는 상황에서 배경의 구조적 일관성과 날씨 전이 사이의 모델링 충돌을 일으키는 한계가 있습니다. [Figure 1]은 본 논문에서 제안하는 카메라, 객체, 날씨의 통합 제어 개념을 보여줍니다.

Figure 1: 모델의 핵심 제어 개념인 카메라, 객체, 날씨 통합 제어 시각화

Figure 1 — 모델의 핵심 제어 개념인 카메라, 객체, 날씨 통합 제어 시각화

## 3. Method & Key Results (제안 방법론 및 핵심 결과) Holo-World는 단일 이미지로부터 카메라 동작, 객체 움직임, 날씨 상태를 동시에 제어하기 위해 UniSASW-CFG를 핵심 구성 요소로 도입합니다. UniSA는 world preservation을 위한 World Adapter와 날씨 변화를 담당하는 State Adapter를 통해 frozen 백본 내에서 파라미터가 분리된 두 공간을 구축하여, 보존과 전이라는 상충하는 목표를 효과적으로 달성합니다. [Figure 3]은 이러한 아키텍처 구성을 설명합니다. 샘플링 단계에서는 SW-CFG를 적용하여 scene residual과 weather residual을 독립적으로 가이드함으로써, 소스 이미지의 과도한 변형 없이 타겟 날씨 효과만을 정교하게 강화합니다. 실험 결과, 본 모델은 Real subset 평가에서 VBench-I2V Overall Score 89.05를 달성하여 우수한 배경 보존 능력을 입증하였으며, Weather subset에서는 86.00%의 Weather Alignment68.51의 VLM Evaluation 점수를 기록하며 기존의 Video-to-Video 편집 모델들을 상회하는 성능을 보였습니다. [Table 1]과 [Table 3]은 이러한 모델의 정량적 우위를 잘 나타내고 있습니다.

Figure 3: UniSA와 SW-CFG가 포함된 전체적인 모델 아키텍처 다이어그램

Figure 3 — UniSA와 SW-CFG가 포함된 전체적인 모델 아키텍처 다이어그램

Table 1: 기존 SOTA 모델들과의 정량적 성능 비교표

Table 1 — 기존 SOTA 모델들과의 정량적 성능 비교표

## 4. Conclusion & Impact (결론 및 시사점) Holo-World는 단일 이미지로부터 고도로 구조화된 월드 제어를 수행하여 배경 보존과 날씨 전이를 동시에 실현한 혁신적인 비디오 월드 모델입니다. 본 연구에서 구축한 HoloStateData는 향후 비디오 생성 분야의 통합 제어 연구를 위한 핵심 데이터셋으로 활용될 것이며, 제안된 UniSASW-CFG 기법은 생성 모델의 제어 성능과 일관성을 높이는 데 중요한 기술적 토대를 제공합니다. 이는 단순한 비디오 생성을 넘어, 실제 세계를 물리적으로 반영하는 제어 가능한 시뮬레이션 환경 구축에 있어 학계와 산업계에 중요한 시사점을 제공할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글