[논문리뷰] Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning본 논문은 기존 MLLM 기반 에이전트들이 3D 공간 추론 작업에서 장면의 특성을 무시하고 획일적인 툴 사용 전략을 취함으로써 성능이 저하되는 문제를 해결하고자 한다.#Review#Agentic AI#3D Spatial Reasoning#Scene-Aware Skills#Tool Learning#Skill Evolution2026년 6월 8일댓글 수 로딩 중
[논문리뷰] SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes본 논문은 VLM이 단순한 공간 관찰을 넘어 실제 3D 환경에서 행동하고 그 결과를 관리할 수 있는지 평가하기 위해 SpatialAct를 제안한다. 기존의 공간 추론 벤치마크들은 대부분 정적인 이미지나 비디오를 대상으로 모델의 이해도만을 측정하며, 모델의 출력이 환경을 변화시키는 상호작용은 고려하지 않았다 .#Review#VLM Agents#3D Spatial Reasoning#Action-Conditioned#Interactive Refinement#Benchmark#Simulator-Grounded2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning본 논문은 현대의 Vision-Language Models(VLMs)가 3D 공간 추론에서 겪는 근본적인 한계를 해결하고자 합니다.#Review#Vision-Language Models#3D Spatial Reasoning#Geometric Priors#Correspondence Learning#Depth Consistency#Object Constancy2026년 5월 28일댓글 수 로딩 중
[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…#Review#Embodied AI#Foundation Model#3D Spatial Reasoning#Temporal Value Estimation#Robotics#Manipulation#Multimodal Learning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#3D Spatial Reasoning#Embodied AI#Foundation Models#Multimodal Fusion#Robot Manipulation#Modality Transferability#Action Grounding2025년 10월 29일댓글 수 로딩 중