[논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning
링크: 논문 PDF로 바로 열기
메타데이터
저자: Yuxin Liu, Ziang Ye, Yueqing Sun, Mingye Zhu, Jinwei Xiao, Zhuowen Han, Qi Gu, Xunliang Cai, Lei Zhang
1. Key Terms & Definitions (핵심 용어 및 정의)
- Delayed Environmental Perception: 에이전트가 실행 과정에서 시행착오를 통해 환경을 학습하는 기존 패러다임의 한계로, 환경 구조를 미리 이해하지 못해 효율성이 저하되는 현상.
- Epistemic Bottleneck: 명시적인 환경 이해 없이 실행에만 의존할 때 발생하는 인지적 병목으로, 이로 인해 Goal Drift나 비효율적인 trial-and-error가 발생함.
- MAP (Map-then-Act Paradigm): 환경 이해와 작업 실행을 명시적으로 분리하여, 실행 전 환경의 공간 레이아웃과 Affordance를 구조화된 Cognitive Map으로 구성하는 프레임워크.
- Cognitive Map ($M_t$): 에이전트가 탐색을 통해 구축한 환경의 공간 구조, 객체-행동 상관관계, 게임 규칙 등이 담긴 체계적인 내부 표현.
- MAP-2K: 제안하는 Map-then-Act 패러다임에 기반하여 생성된 고품질 탐색 궤적 데이터셋으로, 에이전트의 일반화 성능을 향상시키기 위한 fine-tuning에 사용됨.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존의 ReAct나 Chain-of-Thought (CoT)와 같은 에이전트 패러다임이 가진 환경 인식의 시간적 역전 문제를 해결하고자 한다 [Figure 1]. 현재의 에이전트들은 환경을 능동적으로 탐색하여 지식을 체계화하기보다, 실행 과정에서 발생하는 피드백에만 의존하는 Delayed Environmental Perception 문제에 직면해 있다. 이러한 구조적 결함은 에이전트가 비효율적인 시도와 시행착오에 갇히는 Epistemic Bottleneck을 유발하며, 이는 고수준 추론 모델이라 하더라도 환경 자체에 대한 이해가 없으면 성능을 발휘하지 못하는 원인이 된다. 저자들은 환경을 먼저 이해하고 행동하는 것이 에이전트의 일반화 및 적응 능력에 더 근본적인 요소임을 주장한다.

Figure 1 — 기존 패러다임 vs MAP 비교
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 Global Exploration, Task-Specific Cognitive Mapping, Knowledge-Augmented Execution의 3단계로 구성된 MAP 프레임워크를 제안한다 [Figure 2]. 첫째, Global Exploration은 환경 전반에 걸친 범용 우선순위 규칙을 추출하고, 둘째, Task-Specific Cognitive Mapping은 RPP(Role-Purpose-Priority) 프로토콜을 통해 환경의 레이아웃과 Affordance를 담은 Cognitive Map을 생성한다 [Figure 2]. 마지막으로 에이전트는 생성된 Cognitive Map과 Global Prior를 기반으로 작업 실행을 수행한다. 실험 결과, MAP은 ALFWorld, TextCraft, ScienceWorld와 같은 벤치마크에서 기존 ReAct 및 CoMAP 베이스라인 대비 일관된 성능 우위를 점하였다 [Table 1]. 특히, MAP-2K 데이터셋으로 fine-tuning된 MAP-4B 모델은 기존 전문가 궤적 학습 모델(ACT-4B)보다 모든 벤치마크에서 우수한 성과를 보였으며, 이는 환경 이해 학습이 단순한 동작 모방보다 상위의 일반화 원동력임을 증명한다 [Table 1]. 또한, ARC-AGI-3와 같은 미지 환경에서 frontier 모델들이 near-zero 성능을 보이는 반면, MAP은 25개 중 22개 게임에서 명확한 성능 향상을 보였다 [Table 2].

Figure 2 — MAP 프레임워크 3단계 아키텍처
4. Conclusion & Impact (결론 및 시사점)
본 논문은 환경 인지와 작업 실행을 분리하는 Map-then-Act 패러다임이 에이전트의 효율적인 문제 해결을 위한 필수적인 구조임을 입증하였다. 연구 결과, 구조화된 탐색을 통해 얻은 Cognitive Map은 에이전트의 적응성과 Robustness를 획기적으로 향상시켰다. 이 프레임워크는 기존의 reactive한 에이전트 설계 방식에서 벗어나, 에이전트가 자신의 경험을 기반으로 환경을 스스로 인지하고 grounded된 결정을 내릴 수 있도록 유도한다. 향후 이 연구는 복잡한 embodied AI 및 다중 모드 환경에서의 에이전트 지능을 실현하는 데 있어 핵심적인 기틀을 제공할 것으로 기대된다.

Figure 3 — Cognitive Map QA 정확도
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents
- [논문리뷰] CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?
- [논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation
- [논문리뷰] From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms
- [논문리뷰] AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization
Review 의 다른글
- 이전글 [논문리뷰] M2Retinexformer: Multi-Modal Retinexformer for Low-Light Image Enhancement
- 현재글 : [논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning
- 다음글 [논문리뷰] MemReread: Enhancing Agentic Long-Context Reasoning via Memory-Guided Rereading
댓글