#Multimodal Fusion

3개의 포스트

[논문리뷰] Audio-Visual Intelligence in Large Foundation Models

본 논문은 대규모 파운데이션 모델 시대에 멀티모달 학습이 필수적임에도 불구하고, 시청각 데이터 간의 정렬, Taxonomy의 불일치, 그리고 평가 방법론의 파편화로 인해 체계적인 연구가 어렵다는 문제를 해결하고자 합니다.

#Review #Audio-Visual Intelligence #Foundation Models #Multimodal Fusion #Embodied AI #Cross-modal Generation

2026년 5월 7일

[논문리뷰] OmniHuman-1.5: Instilling an Active Mind in Avatars via Cognitive Simulation

기존 비디오 아바타 모델이 오디오 리듬에 국한된 물리적 애니메이션만 생성하는 한계를 넘어, 감정, 의도, 문맥을 깊이 이해하여 의미론적으로 일관되고 표현력이 풍부한 캐릭터 애니메이션 을 생성하는 것을 목표로 합니다.

#Review #Video Avatar Generation #Cognitive Simulation #Multimodal Large Language Models (MLLMs)#Diffusion Transformers (DiT)#Multimodal Fusion #Human Motion Synthesis #Contextual Animation

2025년 8월 27일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일