#Video Diffusion Transformer

2개의 포스트

[논문리뷰] TrackCraft3R: Repurposing Video Diffusion Transformers for Dense 3D Tracking

본 논문은 기존의 영상 기반 3D 추적 방식이 가진 한계를 극복하고, 사전 학습된 비디오 생성 모델의 풍부한 시공간적 지식을 활용하여 효율적인 dense 3D tracking 프레임워크를 구축하는 것을 목표로 합니다.

#Review #Video Diffusion Transformer #Dense 3D Tracking #Dual-Latent Representation #Temporal RoPE Alignment #Reference-Anchored Tracking

2026년 5월 13일

[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video Generation

본 논문은 기존 오디오 기반 아바타 비디오 생성 모델에서 잘 다루어지지 않았던 음악 공연 비디오 생성 및 카메라 모션 제어의 한계를 극복하고자 합니다.

#Review #Music-Driven Video Generation #Diffusion Models #Multi-Stage Framework #Camera Control #Lip-Sync #Temporal Coherence #Video Diffusion Transformer

2025년 12월 2일