[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models본 연구는 짧은 비디오 데이터로 학습한 모델이 추론 시 긴 길이의 오디오(Long-Form Audio)를 일관성 있고 고품질로 생성할 수 있도록 Video-to-Audio (V2A) 모델의 길이 일반화(Length Generalization) 문제 를 해결하는 것을 목표로 합니다.#Review#Video-to-Audio Generation#Length Generalization#Multimodal Learning#Mamba Architecture#Hierarchical Networks#Flow Matching#Audio Synthesis2026년 2월 26일댓글 수 로딩 중
[논문리뷰] UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE본 연구는 음성 및 음악 생성의 통합이라는 오랜 과제를 해결하는 것을 목표로 합니다.#Review#Mixture of Experts#Speech Generation#Music Generation#Multimodal AI#Dynamic Routing#Training Curriculum#Data Imbalance#Audio Synthesis2025년 10월 16일댓글 수 로딩 중