[논문리뷰] Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis기존 아바타 애니메이션 방법론의 지시 불이행 및 장기적 일관성 부족 문제를 해결하고, 오디오, 이미지, 텍스트 등 다중 모드 지시 를 심층적으로 이해하여 표정, 동작, 립싱크 가 정교하고 사실적인 고품질 장기 아바타 애니메이션 을 생성하는 것을 목표로 합니다.#Review#Avatar Animation#Multimodal Instructions#Long-Duration Video Generation#MLLM Director#Cascaded Framework#Lip Synchronization#Instruction Grounding#Video Diffusion Transformers2025년 9월 12일댓글 수 로딩 중
[논문리뷰] UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution본 논문은 기존의 캐스케이드(cascaded) 비디오 초해상화(VSR) 모델이 텍스트-투-비디오(text-to-video) 작업에 한정되어 다양한 생성 조건을 활용하지 못하며, 2K, 4K와 같은 초고해상도 비디오 생성에 따르는 막대한 계산 비용 문제를 해결하고자 합니다.#Review#Video Super-Resolution#Multi-Modal Generation#Latent Diffusion Models#Cascaded Framework#Condition Injection#Text-to-Video#Video Editing#4K Video2025년 10월 10일댓글 수 로딩 중