[논문리뷰] When Vision Speaks for Sound본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .#Review#Video-LLMs#Audio-Visual Grounding#Clever Hans Effect#Intervention-Driven Diagnostics#Direct Preference Optimization (DPO)#Multimodal Alignment2026년 5월 19일댓글 수 로딩 중