#Audio Synthesis

2개의 포스트

[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

본 연구는 짧은 비디오 데이터로 학습한 모델이 추론 시 긴 길이의 오디오(Long-Form Audio)를 일관성 있고 고품질로 생성할 수 있도록 Video-to-Audio (V2A) 모델의 길이 일반화(Length Generalization) 문제 를 해결하는 것을 목표로 합니다.

#Review #Video-to-Audio Generation #Length Generalization #Multimodal Learning #Mamba Architecture #Hierarchical Networks #Flow Matching #Audio Synthesis

2026년 2월 26일

[논문리뷰] UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE

본 연구는 음성 및 음악 생성의 통합이라는 오랜 과제를 해결하는 것을 목표로 합니다.

#Review #Mixture of Experts #Speech Generation #Music Generation #Multimodal AI #Dynamic Routing #Training Curriculum #Data Imbalance #Audio Synthesis

2025년 10월 16일