#Lip Synchronization

5개의 포스트

[논문리뷰] Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

본 논문은 기존 Diffusion 기반의 오디오-비디오 생성 모델이 가진 높은 Latency와 연산 복잡도 문제를 해결하는 것을 목표로 합니다. 기존 방식은 고품질의 출력을 생성하기 위해 수십 번의 Sampling Step이 필요하여 실시간 서비스에 적용하기 어렵습니다.

#Review #Lip Synchronization #Diffusion Models #Autoregressive #Real-time #Audio-Driven Talking Face

2026년 6월 9일

[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation

기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.

#Review #Video-Audio Generation #Diffusion Transformer #Multimodal AI #Lip Synchronization #Open Source #Data Curation #Dual-Tower Architecture #Cross-Attention

2026년 2월 9일

[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.

#Review #Real-time Video Generation #Multimodal Diffusion #On-Policy Distillation #Interactive AI Avatars #Video Streaming #Anchor-Heavy Identity Sinks #Lip Synchronization

2025년 12월 29일

[논문리뷰] KlingAvatar 2.0 Technical Report

본 연구는 장시간 고해상도 아바타 비디오 생성 시 발생하는 효율성 부족, 시간적 드리프트, 품질 저하, 프롬프트 불일치 문제를 해결하는 것을 목표로 합니다.

#Review #Avatar Generation #Video Diffusion #Multi-modal LLM #Long-duration Video #High-resolution Video #Lip Synchronization #Multi-character Control #Spatio-temporal Cascade

2025년 12월 15일

[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis

기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Avatar Animation #Multimodal Instructions #Long-Duration Video Generation #MLLM Director #Cascaded Framework #Lip Synchronization #Instruction Grounding #Video Diffusion Transformers

2025년 9월 12일