[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.#Review#Video-Audio Generation#Diffusion Transformer#Multimodal AI#Lip Synchronization#Open Source#Data Curation#Dual-Tower Architecture#Cross-Attention2026년 2월 9일댓글 수 로딩 중
[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.#Review#Real-time Video Generation#Multimodal Diffusion#On-Policy Distillation#Interactive AI Avatars#Video Streaming#Anchor-Heavy Identity Sinks#Lip Synchronization2025년 12월 29일댓글 수 로딩 중
[논문리뷰] KlingAvatar 2.0 Technical Report본 연구는 장시간 고해상도 아바타 비디오 생성 시 발생하는 효율성 부족, 시간적 드리프트, 품질 저하, 프롬프트 불일치 문제를 해결하는 것을 목표로 합니다.#Review#Avatar Generation#Video Diffusion#Multi-modal LLM#Long-duration Video#High-resolution Video#Lip Synchronization#Multi-character Control#Spatio-temporal Cascade2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.#Review#Avatar Animation#Multimodal Instructions#Long-Duration Video Generation#MLLM Director#Cascaded Framework#Lip Synchronization#Instruction Grounding#Video Diffusion Transformers2025년 9월 12일댓글 수 로딩 중