[논문리뷰] Audio-Visual Intelligence in Large Foundation Models본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.#Review#Audio-Visual Intelligence#Foundation Models#Multimodal Fusion#Embodied AI#Cross-modal Generation2026년 5월 7일댓글 수 로딩 중