#Hierarchical Networks

1개의 포스트

[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

본 연구는 짧은 비디오 데이터로 학습한 모델이 추론 시 긴 길이의 오디오(Long-Form Audio)를 일관성 있고 고품질로 생성할 수 있도록 Video-to-Audio (V2A) 모델의 길이 일반화(Length Generalization) 문제 를 해결하는 것을 목표로 합니다.

#Review #Video-to-Audio Generation #Length Generalization #Multimodal Learning #Mamba Architecture #Hierarchical Networks #Flow Matching #Audio Synthesis

2026년 2월 26일