[논문리뷰] SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation본 논문은 기존 오디오 기반 비디오 생성 모델들이 주로 시맨틱 정보에만 초점을 맞춰 공간적 일관성이 부족하다는 한계를 지적합니다.#Review#Audio-driven Video Generation#Spatial Auditory Cues#Video Scene Layout#MLLM#Diffusion Models#Training-free2025년 8월 4일댓글 수 로딩 중