[논문리뷰] Think, Act, Build: An Agentic Framework with Vision Language Models for Zero-Shot 3D Visual Grounding본 논문은 3D-VG 작업을 'Think(추론)', 'Act(도구 호출)', 'Build(재구성)' 단계로 세분화한 TAB 프레임워크를 제안합니다 . TAB은 고정된 파이프라인 대신, 전문적인 3D-VG Skill blueprint에 따라 VLM 에이전트가 능동적으로 visual tool을 호출하여 타겟을 추적하고 마스크를 생성합니다.#Review#3D Visual Grounding#Vision-Language Models#Agentic Framework#RGB-D#Zero-Shot#Geometric Reconstruction2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Reasoning in Space via Grounding in the World기존 3D LLM이 통일된 3D 표현 부재 및 외부 모듈 의존으로 인해 3D 시각적 그라운딩과 공간 추론을 원활하게 통합하지 못하는 문제를 해결하는 것이 목표입니다. 본 연구는 LLM이 자율회귀적 방식으로 자연스럽고 효과적인 그라운딩을 수행하여 공간 추론 능력을 향상시킬 수 있는 방법을 모색합니다.#Review#3D Visual Grounding#Spatial Reasoning#Large Language Models (LLMs)#Chain-of-Thought (CoT)#Hybrid Representation#Multi-modal LLMs#Point Clouds2025년 10월 16일댓글 수 로딩 중