본문으로 건너뛰기

[논문리뷰] SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

링크: 논문 PDF로 바로 열기

저자: Siyi Chen, Mikaela Angelina Uy, Chan Hee Song, Faisal Ladhak, Adithyavairavan Murali, Qing Qu, Stan Birchfield, Valts Blukis, Jonathan Tremblay

핵심 연구 목표

본 논문은 시각-언어 모델(VLM)이 실제 로봇 공학 애플리케이션에 필수적인 정밀한 공간 추론 능력 을 습득하도록 하는 것을 목표로 합니다. 기존 방식의 수작업 프롬프트나 고정된 도구 파이프라인의 한계를 넘어, VLM이 다양한 컴퓨터 비전 및 로봇 도구를 최적의 패턴으로 학습하고 조정 할 수 있는 확장 가능한 방법론을 제시하고자 합니다.

핵심 방법론

저자들은 VLM이 다수의 도구를 효과적으로 활용하도록 Double Interactive Reinforcement Learning (DIRL) 이라는 2단계 훈련 프레임워크를 제안합니다. 첫 번째 Teaching Phase 에서는 단일 포인팅 도구 에 대한 인터랙티브 RL 데모와 모든 도구를 활용하는 프론티어 모델의 시연 을 결합하여 기본적인 도구 사용법을 학습하며, 두 번째 Exploration Phase 에서는 Group Relative Policy Optimization (GRPO) 기반의 지속적인 인터랙티브 RL을 통해 다중 도구 조정 능력을 정교화합니다. 이 과정에서 Toolshed 라는 분산 인프라를 통해 SAM2, DepthPro, GraspGen 등 다양한 도구의 효율적인 상호작용을 지원합니다.

주요 결과

SpaceToolsRoboSpatial-Home, BLINK, BOP-ASK 등 다양한 공간 추론 벤치마크에서 최첨단 성능 을 달성했습니다. 특히 RoboSpatial 벤치마크에서는 기존 SFT 대비 +12% , RL 대비 +16% 의 성능 향상을 보였으며, 7-자유도 로봇 을 활용한 실제 Pick-and-Place 작업에서 86%의 성공률 을 기록했습니다. 이는 기존 상용 모델들을 뛰어넘는 결과로, 동적으로 도구 사용 전략을 조절하고 오류 발생 시 자체 수정 능력 을 갖췄음을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 VLM의 공간 추론 능력 을 크게 향상시킬 수 있는 도구 증강 패러다임 의 실용적인 가능성을 보여줍니다. DIRL 프레임워크는 대규모 다중 도구 환경에서 효율적인 RL 훈련 방법론 을 제공하여, AI/ML 엔지니어들이 더욱 복잡한 지능형 로봇 및 임베디드 AI 시스템 을 개발하는 데 기여할 수 있습니다. Toolshed 와 같은 확장 가능한 도구 인프라의 도입은 실제 애플리케이션에서 다양한 컴퓨터 비전 및 로봇 도구를 VLM에 통합하는 데 중요한 기반이 될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글