[논문리뷰] Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning기존의 Multimodal Large Language Models (MLLMs)는 2D 시각 신호에 과도하게 고정되어 3D 환경에 대한 구조화된 추상화를 구축하지 못함으로써 3D 공간 추론(spatial reasoning)에서 어려움을 겪습니다.#Review#Multimodal Large Language Models (MLLMs)#Spatial Reasoning#Textual Representation#Allocentric Context#Egocentric Video#Prompting Methods#VSI-Bench#OST-Bench2026년 3월 25일댓글 수 로딩 중