[논문리뷰] Toward Native Multimodal Modeling: A Roadmap본 논문은 기존 Large Language Models (LLMs)이 텍스트 전용 인터페이스에 근본적으로 제한되어 실제 세계의 풍부한 센서리 신호(sensory signals)를 통한 그라운딩(grounding)이 부족하다는 문제의식에서 출발합니다.#Review#Native Multimodal Modeling#Cross-modal Fusion#Transformer Architectures#Multimodal LLMs#M2M Symmetric Modeling#Mid-Fusion#Early-Fusion2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Phi-4-reasoning-vision-15B Technical Report본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Efficient AI#Reasoning Models#Vision-Language Models#Data Curation#Mid-Fusion#High-Resolution Vision#Small Language Models2026년 3월 4일댓글 수 로딩 중