#Cross-modal Fusion

2개의 포스트

[논문리뷰] Toward Native Multimodal Modeling: A Roadmap

본 논문은 기존 Large Language Models (LLMs)이 텍스트 전용 인터페이스에 근본적으로 제한되어 실제 세계의 풍부한 센서리 신호(sensory signals)를 통한 그라운딩(grounding)이 부족하다는 문제의식에서 출발합니다.

#Review #Native Multimodal Modeling #Cross-modal Fusion #Transformer Architectures #Multimodal LLMs #M2M Symmetric Modeling #Mid-Fusion #Early-Fusion

2026년 5월 25일

[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

본 논문은 텍스트로부터 사운딩 비디오를 생성하는 Text-to-Sounding Video (T2SV) 연구에서 발생하는 두 가지 근본적인 문제를 해결하고자 합니다.

#Review #Text-to-Sounding Video Generation #Diffusion Models #Dual-tower Architecture #Cross-modal Fusion #Visual Grounding #Hierarchical Captioning #Cross-Attention

2025년 10월 10일