[논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

2026년 4월 5일수정: 2026년 4월 5일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Qianshan Wei, Yishan Yang, Siyi Wang, Jinglin Chen, Binyu Wang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Visual Expansion : 모델이 이미지를 능동적으로 변형(crop, rotate, enhance 등)하여 잠재된 시각적 단서를 추출하고 인지 범위를 확장하는 능력입니다.
Knowledge Expansion : 파라메트릭 메모리(parametric memory)의 한계를 넘어, Open-web search 를 통해 실시간 사실을 검증하고 모호성을 해결하는 능력입니다.
Agentic-MME : 시각적 조작과 외부 지식 검색의 Synergy 를 평가하기 위해 구축된 프로세스 검증 기반 벤치마크입니다.
Overthink Metric : 에이전트의 불필요하고 반복적인 도구 사용을 정량화하여 인간의 최소 경로(minimal trajectory) 대비 효율성을 평가하는 지표입니다.
Unified Execution Harness : 코드 생성(Code Generation)과 구조화된 함수 호출(Atomic function-calling)이라는 이질적인 인터페이스를 단일 프로토콜로 통합하여 일관된 평가를 가능하게 하는 프레임워크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 MLLM이 단순한 관찰자에서 능동적 에이전트로 진화함에 따라, 시각적 조작과 지식 검색의 결합 능력을 체계적으로 평가할 필요성을 제기합니다. 기존의 벤치마크들은 도구 통합의 유연성이 부족하거나, 시각적 도구와 웹 검색을 독립적으로 평가하여 이들의 Synergy 를 간과하고 있습니다. 또한, 결과의 정답 여부만을 확인하는 기존 방식은 에이전트의 도구 호출 적절성이나 실행 효율성을 진단하지 못한다는 한계가 있습니다. 이를 해결하기 위해 본 연구는 에이전트의 단계별 중간 상태를 감사할 수 있는 Process-verified benchmark 인 Agentic-MME 를 제안합니다 [Figure 1].

Figure 1: Agentic-MME 태스크 난이도 예시

Figure 1 — Agentic-MME 태스크 난이도 예시

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 난이도별 3단계(Level 1-3)로 구분된 418개의 실제 태스크를 통해 시각적 인지와 도구 사용의 조화를 평가하는 프레임워크를 제안합니다. 시각적 단서 추출과 지식 검색의 Synergy 를 평가하기 위해 2,000개 이상의 인간 주석 Stepwise checkpoints 를 구축하여 S-axis(전략 및 도구 실행)와 V-axis(시각적 증거 충실성)를 엄격히 감시합니다 [Figure 2]. 실험 결과, 최상위 모델인 Gemini 3 Pro 조차 전체 정확도 56.3%를 기록했으나, 최고 난이도인 Level-3에서는 33.3%로 급격히 성능이 하락하여 복잡한 실세계 워크플로우 해결의 어려움을 보여주었습니다 [Table 3]. 또한 Structured tool APIs(Atm mode) 가 Code generation(Gen mode) 대비 도구 실행의 신뢰성과 효율성 측면에서 우월한 성능을 보임을 확인하였습니다. 연구진은 또한 모델들이 도구를 능동적으로 사용하려 하지만, 여전히 적절한 영역을 포착하지 못하거나(Unfaithful execution) 반복적 루프에 빠지는(Overthinking) 등의 전형적인 실패 모드를 파악하였습니다 [Figure 4].

Figure 2: 데이터 구축 및 주석 파이프라인

Figure 2 — 데이터 구축 및 주석 파이프라인

Figure 4: 실패 모드 상세 분석 히트맵

Figure 4 — 실패 모드 상세 분석 히트맵

4. Conclusion & Impact (결론 및 시사점)

본 논문은 시각적 조작과 외부 지식 검색의 정교한 결합이 차세대 멀티모달 에이전트의 핵심 능력임을 입증하고 이를 측정할 수 있는 표준화된 지표를 제공합니다. 연구 결과, frontier 모델들 역시 다단계 계획 및 신뢰성 있는 도구 실행 측면에서 인간과 큰 격차를 보임이 드러났습니다. 본 연구에서 구축한 Agentic-MME 와 프로세스 검증 방식은 향후 학계 및 산업계에서 더욱 강력하고 효율적인 멀티모달 에이전트를 개발하기 위한 진단적 로드맵으로 활용될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks
현재글 : [논문리뷰] Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?
다음글 [논문리뷰] CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning