[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.#Review#Human-Centric Video Generation#Multimodal Conditioning#Text-to-Video#Image-to-Video#Audio-to-Video#Diffusion Models#Subject Preservation#Audio-Visual Synchronization#Progressive Training2025년 9월 12일댓글 수 로딩 중