[논문리뷰] Toward Native Multimodal Modeling: A Roadmap본 논문은 기존 Large Language Models (LLMs)이 텍스트 전용 인터페이스에 근본적으로 제한되어 실제 세계의 풍부한 센서리 신호(sensory signals)를 통한 그라운딩(grounding)이 부족하다는 문제의식에서 출발합니다.#Review#Native Multimodal Modeling#Cross-modal Fusion#Transformer Architectures#Multimodal LLMs#M2M Symmetric Modeling#Mid-Fusion#Early-Fusion2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction본 논문은 텍스트로부터 사운딩 비디오를 생성하는 Text-to-Sounding Video (T2SV) 연구에서 발생하는 두 가지 근본적인 문제를 해결하고자 합니다.#Review#Text-to-Sounding Video Generation#Diffusion Models#Dual-tower Architecture#Cross-modal Fusion#Visual Grounding#Hierarchical Captioning#Cross-Attention2025년 10월 10일댓글 수 로딩 중