[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft
링크: 논문 PDF로 바로 열기
메타데이터
저자: Tianjie Ju, Yueqing Sun, Zheng Wu, Wei Zhang, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Gongshen Liu, Zhuosheng Zhang
1. Key Terms & Definitions (핵심 용어 및 정의)
- MineExplorer: Minecraft 환경에서 MLLM 에이전트의 오픈 월드 탐색 능력을 평가하기 위해 제안된 새로운 벤치마크.
- Atomic Tasks: Minecraft의 복잡한 동작을 분해한 기본 단위로, MineExplorer는 이 중 게임 특화 지식(Minecraft-specific knowledge)에 지나치게 의존하는 항목을 필터링하여 구성됨.
- Implicit Multi-hop Tasks: 명시적인 단계 안내 없이, 환경 내에서 에이전트가 스스로 선결 조건을 추론하고 해결해야 하는 복합 과제.
- ReAct (Reasoning and Acting): 에이전트의 행동을 추론과 실행으로 분해하여 평가하는 패러다임으로, 본 논문에서는 Perception, Reasoning, Action 차원으로 세분화하여 적용함.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 [Figure 1]. 이러한 문제로 인해 에이전트가 일반적인 환경 탐색 능력(Open-world exploration)을 갖추었는지, 아니면 단순한 게임 지식을 암기했는지 구분하기 어렵다. 따라서 저자들은 Minecraft의 특정 지식 편향을 제거하고, 에이전트의 인식, 추론, 행동 능력을 다각도로 평가할 수 있는 새로운 벤치마크 구성을 제안한다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 일반적인 오픈 월드 지식과 Minecraft 전용 지식을 분리하고, 다중 에이전트(Multi-agent) 워크플로우를 활용하여 벤치마크 인스턴스를 합성하는 방식을 제안한다 [Figure 1]. 이 워크플로우는 Task Selector, Scene Designer, Milestone Agent, Minecraft Expert, Validator 에이전트들로 구성되어, 인간 평가 결과 기존의 단일 에이전트 방식 대비 유효성(Valid rate)을 약 30% 향상시켰다 [Table 2]. 실험 결과, 최신 MLLM 모델들은 1-hop 작업에서는 준수한 성능을 보였으나, 장기적인 추론이 필요한 multi-hop 작업에서는 급격한 성능 저하를 나타냈다 [Table 3]. 주요 실험 결과는 다음과 같다:
- TSR (Task Success Rate) 측면에서, 최상위 모델인 Claude-Opus-4.6조차 multi-hop 작업에서는 23.87%의 성공률에 그쳐 오픈 월드 탐색의 높은 난이도를 입증했다 [Table 3].
- 에이전트는 환경 내 객체를 인식하는 Perception 능력은 상대적으로 우수했으나, 이를 행동 전략으로 연결하는 Reasoning 능력이 부족하여 결과적으로 복합 작업 수행에 어려움을 겪었다 [Table 3].
- 모델의 크기가 커지거나 Thinking mode를 도입한다고 해서 반드시 오픈 월드 탐색 능력이 향상되지는 않음을 확인했으며, 이는 시각적 접지(Visual grounding)와 추론 간의 긴밀한 통합이 중요함을 시사한다 [Table 3].
4. Conclusion & Impact (결론 및 시사점)
본 논문은 Minecraft 환경에서 MLLM 에이전트의 오픈 월드 탐색 역량을 평가하는 포괄적인 벤치마크인 MineExplorer를 구축하고 그 한계를 실증적으로 분석했다. 이 연구는 현존하는 모델들이 단기적인 인지 능력은 갖추었으나, 복잡한 환경 내에서 잠재적 선결 조건을 추론하고 장기간의 목표를 달성하는 데에는 여전히 큰 격차가 있음을 시사한다. 본 벤치마크는 향후 embodied AI 연구가 단순한 단기 작업 수행을 넘어, 복잡한 오픈 월드 시나리오에서의 장기적인 탐색 및 추론 역량을 강화하는 방향으로 발전하는 데 중요한 이정표가 될 것이다.
Part 2: 중요 Figure 정보

Figure 1 — MineExplorer 프레임워크 개요

Figure 5 — 밀스톤 결과와 인간 평가의 상관관계

Figure 6 — 작업 난이도에 따른 TSR 추이
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes
- [논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?
- [논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue
- [논문리뷰] Solaris: Building a Multiplayer Video World Model in Minecraft
- [논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
Review 의 다른글
- 이전글 [논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching
- 현재글 : [논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft
- 다음글 [논문리뷰] Multi-Agent Computer Use
댓글