[논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data

2026년 4월 2일수정: 2026년 4월 2일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Wonjoon Jin, Jiyun Won, Janghyeok Han, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

DynaVid : 고도로 역동적인 동작과 정밀한 카메라 제어가 가능한 비디오 합성 프레임워크입니다.
Synthetic Motion Data : 컴퓨터 그래픽스 파이프라인에서 렌더링된 광학 흐름(Optical Flow) 데이터로, 실제 영상 데이터의 부족한 동작 패턴을 보완합니다.
Decoupled Framework : 동작(Motion) 생성 단계와 영상(Video) 생성 단계를 분리하여, 동작 역학은 합성 데이터에서 학습하고 시각적 사실성(Visual Realism)은 실제 영상에서 보존하는 구조입니다.
Plücker embeddings : 카메라 제어를 위해 사용되는 표현 방식으로, 카메라 파라미터에서 추출되어 제어 브랜치의 입력값으로 활용됩니다.
Flow Matching : 본 논문에서 Motion 생성 및 Video 생성을 위해 채택한 핵심 학습 객체(Objective)입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 대규모 비디오 확산 모델(Video Diffusion Models)이 고도로 역동적인 동작이나 정밀한 카메라 제어가 필요한 영상을 생성하는 데 한계가 있다는 문제를 해결하고자 합니다. 현재 사용되는 대규모 학습 데이터셋에는 극적인 인간의 동작이나 급격한 카메라 변화와 같은 역동적인 샘플이 충분히 포함되어 있지 않습니다. 기존 연구들은 실제 영상 데이터에 의존하거나 렌더링된 영상을 직접 학습에 사용하여 시각적 도메인 차이(Domain Gap)로 인한 부자연스러운 결과물을 생성하는 문제에 직면해 있습니다 [Figure 1].

Figure 1: 기존 모델 대비 향상된 동적 비디오 생성 결과

Figure 1 — 기존 모델 대비 향상된 동적 비디오 생성 결과

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 합성 광학 흐름(Optical Flow)을 활용하여 동작과 외관(Appearance) 정보를 분리한 DynaVid 프레임워크를 제안합니다. 제안 모델은 2단계로 구성되며, 첫 번째 단계인 Motion generator 가 텍스트 조건과 카메라 제어 신호(Plücker embeddings)를 받아 동작을 합성하고, 두 번째 단계인 Motion-guided video generator 가 이 동작 정보를 바탕으로 실제와 유사한 RGB 비디오 프레임을 생성합니다 [Figure 3]. 이 과정에서 실제 데이터의 흐름 추정 오류를 줄이기 위해 데이터 필터링 기법을 적용하였습니다. 실험 결과, DynaVid 는 고도로 역동적인 인간 동작 생성 및 급격한 카메라 회전 시나리오에서 기존 모델 대비 압도적인 성능 우위를 보였습니다. 특히 정량적 지표인 FVD(Fréchet Video Distance) 및 VBench 의 A-Qual(Aesthetic Quality) 수치에서 뛰어난 결과를 달성하였으며, 특히 mRotErr(mean Rotation Error) 지표로 평가한 카메라 제어 정밀도에서 기존 베이스라인 대비 탁월한 성능을 입증하였습니다 [Table 1, Table 2].

Figure 3: DynaVid 프레임워크의 2단계 구조

Figure 3 — DynaVid 프레임워크의 2단계 구조

4. Conclusion & Impact (결론 및 시사점)

본 논문은 합성 광학 흐름 데이터를 활용하여 동작 역학 학습과 시각적 사실성을 성공적으로 결합한 새로운 비디오 합성 패러다임을 제시합니다. 이 연구는 기존의 대규모 모델이 달성하지 못한 극한의 동작 및 카메라 제어 역량을 확보함으로써, 영화, 애니메이션 및 실감형 콘텐츠 제작 효율을 크게 높일 수 있는 기술적 토대를 마련하였습니다. 향후 다중 인물 시나리오와 같은 복잡한 환경으로 확장될 잠재력이 크며, 생성형 AI 분야에서 데이터의 질적인 활용방안을 새롭게 정립했다는 점에서 중요한 학술적 의미를 가집니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models
현재글 : [논문리뷰] DynaVid: Learning to Generate Highly Dynamic Videos using Synthetic Motion Data
다음글 [논문리뷰] Efficient and Principled Scientific Discovery through Bayesian Optimization: A Tutorial