#Frozen Backbones

1개의 포스트

[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

본 논문은 사전 학습된 텍스트-오디오(T2A) 모델 을 동결시킨 상태에서, 비디오 가이드 Foley 음향 합성 을 위한 경량의 접근 방식을 제안합니다.

#Review #Text-to-Audio #Video-to-Audio #Foley Synthesis #Diffusion Models #Cross-Attention #Frozen Backbones #Video Embeddings #Rotary Position Embeddings

2025년 10월 27일