#Audio-driven Animation

3개의 포스트

[논문리뷰] SkyReels-V3 Technique Report

본 논문은 SkyReels-V3 를 통해 시각적 참조, 비디오, 오디오 및 텍스트 입력을 통합하여 유연하고 제어 가능한 비디오 생성을 가능하게 하는 통합 멀티모달 조건부 비디오 생성 프레임워크 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Multimodal AI #Diffusion Models #Transformer Architecture #Reference-guided Generation #Video-to-Video #Audio-driven Animation #Temporal Consistency

2026년 1월 26일

[논문리뷰] Multi-human Interactive Talking Dataset

기존 단일 화자 또는 얼굴 기반의 오디오-구동 비디오 생성 모델의 한계를 극복하고, 다중 인간 상호작용 을 현실적으로 모델링하는 새로운 과제인 다중 인간 대화 비디오 생성(Multi-Human Talking Video Generation) 을 정의하는 것을 목표로 합니다.

#Review #Multi-human Video Generation #Interactive Talking #Dataset #Audio-driven Animation #Pose Control #Speech Interaction #Diffusion Models

2025년 8월 6일

[논문리뷰] Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

오디오 기반 인물 애니메이션 모델이 장시간 생성 시 겪는 캐릭터 정체성(identity) 표류 문제를 해결하고, 기존 키프레임 기반 방법론의 한계를 극복하여 일관된 캐릭터 정체성 과 높은 시각적 품질 을 유지하는 것을 목표로 합니다.

#Review #Audio-driven Animation #Identity Preservation #Diffusion Transformers #Long-form Video Generation #Temporal Autoregression #Keyframe Anchoring #Self-keyframing

2025년 10월 28일