[논문리뷰] MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
링크: 논문 PDF로 바로 열기
메타데이터
저자: Guangyi Liu, Gao Wu, Congxiao Liu, Pengxiang Zhao, Liang Liu, Mading Li, Qi Zhang, Mengyan Wang, Liang Guo, Yong Liu
## 1. Key Terms & Definitions (핵심 용어 및 정의)
- ConAct (Context-as-Action): 문맥 관리(context management)를 단순한 로그 기록이 아닌, 에이전트 정책이 직접 제어하는 'first-class action'으로 처리하는 패러다임입니다.
- Folded Action History: 긴 작업 기록을 압축하여 요약된 형태로 유지함으로써 프롬프트 폭발(prompt explosion)을 방지하는 컨텍스트 필드입니다.
- Folded UI State: 앱 화면 전환 및 정보 이동 시에도 지속적으로 유지해야 할 핵심 UI 데이터를 구조화된 트리플(id, description, content) 형태로 저장하는 메모리 필드입니다.
- Recent Step Record: 현재 단계의 상세 관찰 내용과 의도를 저장하여 향후 컨텍스트 갱신 시Grounding 자료로 활용하는 필드입니다.
## 2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 MLLM 기반 모바일 GUI 에이전트들이 장기 작업(long-horizon task)에서 나타내는 신뢰성 저하와 컨텍스트 관리의 비효율성 문제를 해결하고자 합니다. 기존의 ReAct-style 접근 방식은 매 단계마다 기록을 무분별하게 추가하여 컨텍스트가 방대해지는 'prompt explosion'을 야기하고, 이로 인해 중요한 정보가 희석되거나 소실되는 문제(information loss)가 발생합니다. [Figure 2]는 이러한 수동적 컨텍스트 관리의 한계를 명확히 보여주며, 에이전트가 직접 무엇을 압축하고 무엇을 기억할지 결정하는 정책 기반 메커니즘의 필요성을 제시합니다.

Figure 2 — 기존 방식과 제안하는 ConAct 방식의 컨텍스트 관리 차이를 설명하는 다이어그램
## 3. Method & Key Results (제안 방법론 및 핵심 결과)
저자들은 에이전트가 단일 forward pass 내에서 UI 행동과 문맥 관리 행동을 동시에 수행할 수 있도록 ConAct 프레임워크를 제안합니다. 제안된 모델은 Folded Action History, Folded UI State, Recent Step Record라는 3가지 구조화된 필드를 통해 컨텍스트를 Proactive하게 관리합니다. 이를 위해 저자들은 2,956개의 성공적인 궤적(trajectory)으로 구성된 MemGUI-3K 데이터셋을 구축하여 학습시켰습니다. 주요 실험 결과로, 제로샷(zero-shot) 환경의 MemGUI-Agent-235B는 MemGUI-Bench에서 62.5% Pass@3를 기록하며 SOTA를 달성했습니다. 또한, MemGUI-8B-SFT 모델은 동급 파라미터 모델 중 최고의 성능을 확보하며, [Table 2]에서 볼 수 있듯이 범용적인 일반화 능력(Generalization)을 입증했습니다. 특히 [Figure 1]에서 확인되듯, ConAct는 기존 ReAct 대비 토큰 소모를 크게 줄이면서도 장기 작업에서의 성공률을 대폭 향상시켰습니다.

Figure 1 — 컨텍스트 효율성 및 벤치마크 성능을 비교한 핵심 지표 그래프

Table 2 — 벤치마크 난이도별 성능 결과를 비교한 핵심 테이블
## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 모바일 에이전트의 장기 작업 수행 능력이 수동적인 로그 기록이 아닌, 정책 기반의 능동적인 문맥 관리에서 기인함을 증명하였습니다. 제안된 ConAct는 에이전트의 추론 능력과 컨텍스트 관리 효율성을 결합하여 기존 시스템들의 고질적인 문제인 정보 손실을 효과적으로 완화합니다. 이 연구는 향후 복잡한 모바일 앱 환경을 제어해야 하는 자율형 AI 에이전트 설계에 있어 중요한 방법론적 토대를 마련하였으며, 산업계와 학계의 GUI 에이전트 개발 표준에 기여할 것으로 기대됩니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MobileGym: A Verifiable and Highly Parallel Simulation Platform for Mobile GUI Agent Research
- [논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines
- [논문리뷰] Xiaomi-GUI-0 Technical Report
- [논문리뷰] Unlocking the Visual Record of Materials Science: A Large-Scale Multimodal Dataset from Scientific Literature
- [논문리뷰] TerraDiT-Ω: Unified Spatial Control for Satellite Image Synthesis with Any Geospatial Primitive
Review 의 다른글
- 이전글 [논문리뷰] LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis
- 현재글 : [논문리뷰] MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management
- 다음글 [논문리뷰] MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization
댓글