#3D Embodied Reasoning

1개의 포스트

[논문리뷰] AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models

본 논문은 3D 환경에서 자연어 명령을 기반으로 물체의 상호작용 가능한 요소(affordance elements)를 식별하고, 해당 요소의 3D 마스크 , 동작 유형 , 동작 축 방향 을 포함하는 구조화된 트립렛을 예측하는 Fine-grained 3D Embodied Reasoning 이라는 새로운 태스크를 제안합니다.

#Review #3D Embodied Reasoning #Multimodal Large Language Models (MLLMs)#Chain-of-Thought (CoT)#Affordance Grounding #Motion Estimation #View Synthesis #Active Perception

2025년 11월 13일