#3D Spatial Reasoning

5개의 포스트

[논문리뷰] Skill-3D: Evolving Scene-Aware Skills for Agentic 3D Spatial Reasoning

본 논문은 기존 MLLM 기반 에이전트들이 3D 공간 추론 작업에서 장면의 특성을 무시하고 획일적인 툴 사용 전략을 취함으로써 성능이 저하되는 문제를 해결하고자 한다.

#Review #Agentic AI #3D Spatial Reasoning #Scene-Aware Skills #Tool Learning #Skill Evolution

2026년 6월 8일

[논문리뷰] SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

본 논문은 VLM이 단순한 공간 관찰을 넘어 실제 3D 환경에서 행동하고 그 결과를 관리할 수 있는지 평가하기 위해 SpatialAct를 제안한다. 기존의 공간 추론 벤치마크들은 대부분 정적인 이미지나 비디오를 대상으로 모델의 이해도만을 측정하며, 모델의 출력이 환경을 변화시키는 상호작용은 고려하지 않았다 .

#Review #VLM Agents #3D Spatial Reasoning #Action-Conditioned #Interactive Refinement #Benchmark #Simulator-Grounded

2026년 6월 3일

[논문리뷰] Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

본 논문은 현대의 Vision-Language Models(VLMs)가 3D 공간 추론에서 겪는 근본적인 한계를 해결하고자 합니다.

#Review #Vision-Language Models #3D Spatial Reasoning #Geometric Priors #Correspondence Learning #Depth Consistency #Object Constancy

2026년 5월 28일

[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…

#Review #Embodied AI #Foundation Model #3D Spatial Reasoning #Temporal Value Estimation #Robotics #Manipulation #Multimodal Learning

2026년 1월 21일

[논문리뷰] From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

기존 Vision-Language-Action (VLA) 모델이 2D 인코더 에 의존하여 3D 물리 세계에서 공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#3D Spatial Reasoning #Embodied AI #Foundation Models #Multimodal Fusion #Robot Manipulation #Modality Transferability #Action Grounding

2025년 10월 29일