#Hierarchical Captioning

1개의 포스트

[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

본 논문은 텍스트로부터 사운딩 비디오를 생성하는 Text-to-Sounding Video (T2SV) 연구에서 발생하는 두 가지 근본적인 문제를 해결하고자 합니다.

#Review #Text-to-Sounding Video Generation #Diffusion Models #Dual-tower Architecture #Cross-modal Fusion #Visual Grounding #Hierarchical Captioning #Cross-Attention

2025년 10월 10일