[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.#Review#Joint Audio-Video Generation#Diffusion Transformer#Modality-specific Mixture-of-Experts#Temporal-Aligned ROPE#Direct Preference Optimization#Multimodal Generation#Text-to-AV2026년 2월 25일댓글 수 로딩 중
[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.#Review#Joint Audio-Video Generation#Cross-Modal Interaction#Diffusion Transformer#Face-Aware Modulation#Classifier-Free Guidance#Multimodal AI#Generative Models2025년 11월 9일댓글 수 로딩 중