#Audio-Video Generation

2개의 포스트

[논문리뷰] StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration

본 논문은 실시간 streaming 환경에서 긴 호흡의(long-horizon) 캐릭터 오디오-비디오를 생성할 때 발생하는 transcript-audio 불일치와 시각적 품질 저하 문제를 해결합니다 .

#Review #Streaming #Character Animation #Audio-Video Generation #Decoupled Orchestration #Diffusion Transformer #Knowledge Distillation #Long-Horizon Coherence

2026년 6월 1일

[논문리뷰] DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

레퍼런스 기반 오디오-비디오 생성(R2AV), 비디오 편집(RV2AV), 오디오 기반 비디오 애니메이션(RA2V)과 같은 인간 중심 태스크들을 개별적으로 처리하는 기존 모델의 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Video Generation #Human-Centric AI #Diffusion Transformer #Multi-Task Learning #Identity Disentanglement #Controllable Generation #Speaker Confusion

2026년 2월 25일