[논문리뷰] Streaming Video Generation with Streaming Force Control

2026년 6월 7일수정: 2026년 6월 7일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Hanhui Wang, Yiming Xie, Haiwen Feng, Zhaoyang Lv, Shenlong Wang, Huaizu Jiang

1. Key Terms & Definitions (핵심 용어 및 정의)

Unified Force Representation: Global force와 Local force를 동일한 pixel-aligned masked force map으로 인코딩하여, 단일 모델이 다양한 물리적 상호작용을 처리하게 하는 통합된 제어 신호 표현 방식입니다.
Causal Distillation: Bidirectional diffusion teacher 모델의 지식을 Causal autoregressive student 모델로 전이하여, 미래 프레임에 대한 의존성 없이 실시간 스트리밍 생성이 가능하도록 만드는 학습 기법입니다.
Self-Forcing: 생성된 비디오 잠재 공간(Latent space)의 autoregressive rollout 과정에서 분포 매칭 증류(DMD, Distribution Matching Distillation)를 통해 학생 모델이 교사의 생성 분포를 따르도록 최적화하는 기법입니다.
Physics-IQ Benchmark: 모델이 생성한 영상 속 객체의 움직임이 실제 물리적 상호작용(예: 힘에 따른 가속도, 이동 거리)을 얼마나 정량적으로 잘 반영하는지 측정하는 벤치마크 지표입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 비디오 생성 모델들이 가진 상호작용성(Interactivity)의 결여와 물리적 제어의 한계를 해결하기 위해 StreamForce를 제안합니다. 기존의 연구들은 특정 힘의 유형에만 국한되거나 고정된 힘 환경에서만 작동하며, 특히 비인가적(Non-causal)인 bidirectional diffusion 구조를 사용하여 실시간으로 사용자의 힘 제어에 대응하는 스트리밍 생성이 불가능하다는 문제점이 있습니다 [Figure 1]. 또한, 기존의 Trajectory 기반 제어는 힘에 따른 객체의 질량이나 재질 특성에 따른 동적인 변화를 표현하지 못한다는 한계가 있습니다.

Figure 1: StreamForce 제어 개념도

Figure 1 — StreamForce 제어 개념도

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 힘 기반의 실시간 스트리밍 생성을 위해 Control-before-causality 패러다임을 도입하여 bidirectional teacher를 학습시킨 후 이를 causal student로 증류합니다 [Figure 2]. 제안하는 Unified Force Representation은 global 및 local 힘을 하나의 텐서로 통합하며, temporally varying forces를 포함하는 데이터셋을 통해 모델이 시간에 따라 변화하는 입력에 유연하게 대응하도록 학습시킵니다. Distillation 과정에서는 Diverse Image-Force Data를 추가하여 모델이 합성 데이터에만 과적합되지 않고 범용적인 시각적 일반화 능력을 유지하도록 합니다. 실험 결과, StreamForce는 832×480 해상도에서 16.6 FPS의 추론 속도를 달성하며, Physics-IQ 벤치마크에서 기존 Baseline 대비 가장 높은 Spatiotemporal IoU와 MSE 개선 성능을 보였습니다 [Table 2]. 특히 힘이 실시간으로 변하는 시나리오에서 Force Adherence와 Physical Plausibility 점수가 기존 모델들보다 압도적으로 우수함을 증명하였습니다 [Table 1]. 또한 시각적 결과물에서도 객체의 물리적 특성(질량, 마찰 등)을 반영한 자연스러운 동역학을 재현합니다 [Figure 3].

Figure 2: 모델 아키텍처 및 학습 파이프라인

Figure 2 — 모델 아키텍처 및 학습 파이프라인

Figure 3: 정성적 시각 비교 결과

Figure 3 — 정성적 시각 비교 결과

4. Conclusion & Impact (결론 및 시사점)

본 연구는 고성능 비디오 생성 모델을 실시간 상호작용이 가능한 물리적 세계 모델(Interactive World Model)로 한 단계 진화시켰다는 점에서 큰 학술적, 산업적 의의를 갖습니다. StreamForce는 물리적 힘이라는 직관적인 입력 신호를 통해 사용자가 생성 중인 영상의 동역학을 실시간으로 조절할 수 있는 새로운 인터페이스를 제시하였습니다. 이 연구는 향후 인터랙티브 게임, 시뮬레이션 기반 학습, 로보틱스 데이터 합성 등 다양한 분야에서 실시간 물리 엔진을 대체하거나 보조하는 핵심 엔진으로 활용될 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Stream3D-VLM: Online 3D Spatial Understanding with Incremental Geometry Priors
현재글 : [논문리뷰] Streaming Video Generation with Streaming Force Control
다음글 [논문리뷰] SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents