[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

2026년 2월 8일수정: 2026년 2월 8일

링크: 논문 PDF로 바로 열기

저자: Guangyi Liu, Pengxiang Zhao, Yaozhen Liang, Qinyi Luo, Shunye Tang, Yuxiang Chai, Weifeng Lin, Han Xiao, WenHao Wang, Siheng Chen, Zhengxi Lu, Gao Wu, Hao Wang, Liang Liu, Yong Liu

핵심 연구 목표

본 논문은 기존 모바일 GUI 에이전트 벤치마크가 메모리 능력을 체계적으로 평가하지 못하고 메모리 관련 태스크 비중이 5.2-11.8%에 불과 하며 교차 세션 학습 평가가 부재하다는 문제를 제기합니다. 이를 해결하기 위해, 현실 세계의 모바일 상호작용이 요구하는 미묘한 메모리 능력을 포착하고 단기 기억 유지 및 장기 학습 능력 을 체계적으로 평가할 수 있는 엄격하고 포괄적인 평가 프레임워크를 구축하는 것을 목표로 합니다.

핵심 방법론

연구팀은 MEMGUI-BENCH 라는 메모리 중심 벤치마크를 제안합니다. 이는 11개 에이전트의 5가지 아키텍처 를 분석하는 체계적인 메모리 분류 체계를 포함하며, 26개 애플리케이션에 걸쳐 128개의 태스크(89.8%가 메모리 도전 과제) 로 구성됩니다. 평가에는 pass@k 프로토콜 과 Progressive Scrutiny 방식을 활용하는 MEMGUI-EVAL 자동화된 파이프라인이 사용되며, 7가지 계층적 메모리 측정 지표 를 통해 메모리 충실도, 학습 효율성, 실행 효율성을 종합적으로 평가합니다.

주요 결과

평가 결과, 모든 에이전트에서 심각한 메모리 결함, 즉 4-10배의 역량 격차 가 드러났습니다. 특히 M3A는 단일 시도에서 32.8%의 성공률(SR) 을, Agent-S2는 여러 시도에서 49.2%의 성공률(SR@3) 을 달성했습니다. 단기 기억은 기능적 GUI 에이전트에 필수적이며, 장기 기억은 +21.9%p의 성능 향상 을 가져왔지만 아직 활용도가 낮았습니다. 또한, 교차 애플리케이션 복잡성은 16-40%p의 성능 저하 를 유발하는 주요 메모리 병목 현상으로 확인되었습니다.

AI 실무자를 위한 시사점

이 연구는 멀티-세분화 메모리 버퍼 를 통한 사실 보존, 영구적인 목표 추적을 포함한 계층적 태스크 분해 , 그리고 전략적 장기 컨텍스트 활용 이 미래의 메모리 강화 GUI 에이전트 아키텍처 설계에 필수적임을 시사합니다. 또한, 성능과 연산 효율성을 균형 있게 맞추기 위해 프레임워크 유연성과 모델 효율성을 결합한 하이브리드 아키텍처 개발의 중요성을 강조하며, 이는 실제 AI 애플리케이션 개발에 중요한 실용적 지침을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration
현재글 : [논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments
다음글 [논문리뷰] OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions