[논문리뷰] MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

2026년 5월 18일수정: 2026년 5월 18일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Ziyun Zeng, Hang Hua, Bocheng Zou, Mu Cai, Rogerio Feris, Jiebo Luo

1. Key Terms & Definitions (핵심 용어 및 정의)

MementoCore: GUI agent의 frozen backbone을 유지하면서 실시간 메모리 선택, 압축, 검색 기능을 수행하도록 학습된 외부 메모리 컨트롤러입니다.
Working Memory (WM): 현재 진행 중인 태스크(in-task) 상태를 보존하기 위해, 중요한 인터페이스 이벤트만을 선택적으로 요약하고 ROI-level 시각적 증거를 저장하는 단기 메모리 시스템입니다.
Episodic Memory: 과거에 완료된 태스크의 경험을 ROI-level 시각적 정보와 함께 저장하여, 새로운 태스크 수행 시 재사용 가능한 유용한 전략을 제공하는 장기 메모리 저장소입니다.
Memory-Aware Metrics (VAM, TPS, MCS): GUI agent의 장기적 의사결정을 평가하기 위해 도입된 지표로, 각각 의미론적 행동 일치도(VAM), 태스크 진행도(TPS), 그리고 메모리 상태의 일관성(MCS)을 측정합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현재의 GUI agent가 장기적(Long-Horizon) 태스크 수행 시 인터페이스 변화에 따른 태스크 상태를 유지하는 데 한계를 보인다는 점을 문제로 지적합니다. 기존 연구들은 단순히 원시 인터페이스 기록(raw history)을 replay하거나 텍스트 위주의 메모리에 의존하여, 불필요한 정보로 모델을 과부하하거나 나중에 필요한 국소적 시각 정보(localized visual evidence)를 유실하는 문제가 있습니다. 저자들은 GUI 제어를 단순히 컨텍스트 길이의 문제로 보는 대신, 메모리를 능동적으로 관리하는 제어 문제로 접근해야 한다고 주장합니다 [Figure 2].

Figure 2: MementoGUI 프레임워크 구조

Figure 2 — MementoGUI 프레임워크 구조

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 frozen GUI backbone을 유지하면서, 학습된 메모리 컨트롤러인 MementoCore를 플러그인(Plug-in) 방식으로 결합하는 MementoGUI 프레임워크를 제안합니다. MementoCore는 단계별 처리(step processing), 메모리 압축(memory compression), 에피소드 작성(episodic writing), 에피소드 선택(episodic selection)을 수행하는 네 가지 특화된 LoRA 어댑터를 통해 동작합니다. 저자들은 PSAI 컴퓨터 사용 궤적을 활용하여 이러한 메모리 제어 연산을 학습시키는 대규모 데이터 큐레이션 파이프라인을 구축하였습니다 [Figure 1].

Figure 1: 데이터 큐레이션 파이프라인

Figure 1 — 데이터 큐레이션 파이프라인

실험 결과, MementoGUI는 GUI-Odyssey, MM-Mind2Web 및 자체 벤치마크인 MementoGUI-Bench에서 기존의 no-history, history-replay, text-only 베이스라인 대비 일관된 성능 향상을 보였습니다. 예를 들어, UI-Venus-1.5-8B backbone을 사용한 GUI-Odyssey 테스트에서, MementoGUI는 Action Matching Score(AMS)를 54.58에서 68.32로, Trajectory Success Rate(Traj. SR)를 1.29에서 3.57로 유의미하게 개선하였습니다. 이 결과는 국소적 시각 증거를 포함한 능동적인 메모리 제어가 단순 컨텍스트 확장을 능가함을 입증합니다 [Table 1].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 장기적 GUI 제어를 능동적인 메모리 제어 프레임워크인 MementoGUI로 재정의하여 성공적으로 해결하였습니다. 이 연구는 backbone 모델을 재학습시키지 않고도 메모리 컨트롤러를 플러그인으로 활용하여 agent의 성능을 향상시킬 수 있음을 보여주었으며, 메모리 컨트롤러의 규모를 키움으로써 추가적인 성능 이득을 얻을 수 있음을 확인했습니다. 향후 이 연구는 더욱 복잡하고 긴 호흡의 태스크를 수행하는 자율적 GUI agent 개발에 중요한 표준 프레임워크로 활용될 것으로 기대됩니다.

Figure 3: 궤적 길이에 따른 성능 비교

Figure 3 — 궤적 길이에 따른 성능 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Measuring Maximum Activations in Open Large Language Models
현재글 : [논문리뷰] MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents
다음글 [논문리뷰] MixSD: Mixed Contextual Self-Distillation for Knowledge Injection