[논문리뷰] Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language ModelsMultimodal Large Language Models (MLLMs)는 Vision과 Language를 연결하는 데 상당한 발전을 이루었지만, 공간 이해와 시점 인지(viewpoint-aware) 추론 능력은 여전히 부족합니다.#Review#Vision-Language Models#3D Reasoning#Language-based Localization#Spatial Understanding#Situation Modeling#Global Layout Reconstruction#Monocular Video2026년 3월 19일댓글 수 로딩 중