[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

2026년 1월 27일수정: 2026년 1월 27일

링크: 논문 PDF로 바로 열기

저자: Mingyang Song, Haoyu Sun, Jiawei Gu, Linjie Li, Luxin Xu, Ranjay Krishna, Yu Cheng

핵심 연구 목표

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 시각적 추론 능력을 향상시키기 위해, 적응적이며 다단계적인 도구 활용 능력 을 개발하는 것을 목표로 합니다. 기존 MLLM이 새로운 도구나 작업에 직면했을 때 도구를 유연하게 사용하고 조정하는 데 어려움을 겪는 문제를 해결하고자 합니다. AdaReasoner는 도구 사용을 명시적으로 감독되는 행동이 아닌, 일반적인 추론 기술로 학습하도록 하여 이러한 한계를 극복하려 합니다.

핵심 방법론

AdaReasoner는 세 가지 핵심 혁신을 기반으로 합니다: (i) 장기적인 다단계 도구 상호작용 을 위한 확장 가능한 데이터 큐레이션 파이프라인 (Tool Cold Start - TC) ; (ii) 최종 작업 성공을 기반으로 도구 선택 및 순서를 최적화하는 강화 학습 알고리즘 (Tool-GRPO) ; (iii) 도구 사용을 동적으로 조절하는 적응형 학습 메커니즘 (ADL) 입니다. 특히, ADL 은 도구 정의를 무작위화하여 모델이 특정 도구 인터페이스에 과적합되지 않고 기능적 의미를 이해하도록 강제합니다.

주요 결과

AdaReasoner의 7B 모델은 베이스라인 모델 대비 평균 +24.9% 의 성능 향상을 달성했습니다. 특히, VSP 와 Jigsaw 와 같은 도전적인 벤치마크에서 GPT-5 를 능가하는 (예: VSP에서 96.60% vs. 80.10%) 최첨단 성능을 기록했습니다. 또한, 이 모델은 A* 도구의 사용 빈도를 조절하여 관련 없는 도구를 폐기하고 유용한 도구를 채택하는 등 자율적이고 적응적인 도구 사용 행동을 보여주었습니다.

AI 실무자를 위한 시사점

본 연구는 도구 활용 능력을 갖춘 MLLM 개발을 위한 강력한 프레임워크를 제공하여, AI 엔지니어가 작은 규모의 오픈소스 MLLM의 추론 능력을 향상시키는 데 기여합니다. 적응형 학습 전략과 다단계 Tool-GRPO는 모델이 새로운 작업과 도구에 대해 일반화된 도구 사용 능력을 습득하는 데 필수적임을 시사합니다. 이는 AI 모델이 고정된 스크립트 대신 동적으로 도구를 오케스트레이션하여 복잡한 시각적 문제를 해결할 수 있는 잠재력을 보여줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking
현재글 : [논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning
다음글 [논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security