#Modality-specific Mixture-of-Experts

1개의 포스트

[논문리뷰] JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

기존 오픈소스 공동 오디오-비디오 생성(JAVG) 모델들이 생성 품질 , 시간 동기화 , 그리고 인간 선호도 정렬 측면에서 상용 모델(예: Veo3)에 비해 한계를 보이는 문제를 해결하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Diffusion Transformer #Modality-specific Mixture-of-Experts #Temporal-Aligned ROPE #Direct Preference Optimization #Multimodal Generation #Text-to-AV

2026년 2월 25일