본문으로 건너뛰기

[논문리뷰] MobileForge: Annotation-Free Adaptation for Mobile GUI Agents with Hierarchical Feedback-Guided Policy Optimization

링크: 논문 PDF로 바로 열기

메타데이터

저자: Guangyi Liu, Pengxiang Zhao, Gao Wu, Yiwen Yin, Mading Li, Liang Liu, Congxiao Liu, Zhang Qi, Mengyan Wang, Liang Guo, Yong Liu


1. Key Terms & Definitions (핵심 용어 및 정의)

  • MobileGym: 실제 모바일 앱 환경 내에서 타겟 앱 탐색, 실행 가능한 작업(Task) 마이닝, 그리고 롤아웃에 대한 계층적 평가를 수행하는 적응형 기판(Substrate).
  • HiFPO (Hierarchical Feedback-Guided Policy Optimization): 롤아웃 성과, 단계별 프로세스 피드백, 그리고 수정 힌트를 통합하여 정책 개선을 수행하는 계층적 피드백 기반 최적화 알고리즘.
  • Corrective Hints: 롤아웃 시도 과정에서 발생한 실패 원인이나 개선 방안을 자연어로 요약하여, 이후 시도나 학습 단계에서 정책이 실수를 방지하도록 돕는 컨텍스트 정보.
  • GRPO (Group-Relative Policy Optimization): Critic 모델 없이도 동일한 프롬프트에 대한 여러 응답을 샘플링하고 그룹 내에서 상대적인 보상을 정규화하여 정책을 최적화하는 기법.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 모바일 GUI 에이전트의 타겟 앱 적응 과정에서 발생하는 비용과 비효율성 문제를 해결하기 위해 MobileForge를 제안한다. 기존 연구들은 사람이 작성한 작업 데이터나 전문가 시연, 보상 레이블에 의존해야 하므로 앱의 잦은 업데이트에 대응하기 어렵다 [Figure 2]. 또한, 기존의 적응 기법들은 타겟 앱 탐색과 정책 학습 사이의 유기적인 연결이 부족하며, 롤아웃을 단일하고 파편화된 경험으로 처리하여 신뢰할 수 있는 개선 신호를 도출하는 데 한계가 있다. 이러한 문제로 인해 에이전트는 장기적인 모바일 작업에서 실패할 경우 재사용 가능한 정보를 추출하지 못하는 병목 현상을 겪는다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구는 MobileGym을 통해 환경과 상호작용하며 작업을 생성하고 평가하는 기반을 마련하고, HiFPO를 통해 계층적 피드백을 단계별 학습 신호로 변환하는 시스템을 제안한다 [Figure 3]. MobileGym은 타겟 앱 내에서 기능 중심의 탐색을 수행하고, 이를 바탕으로 작업 커리큘럼을 구성하며, 완성된 롤아웃에 대해 결과 레이블, 단계별 피드백, 수정 힌트를 생성하는 계층적 Critic 역할을 수행한다 [Figure 4]. HiFPO는 수정 힌트를 활용하여 연속적인 롤아웃을 스케줄링하고, 성공한 작업은 제거하며, 어려운 작업에서 합리적인 로컬 단계만 필터링하여 GRPO 학습 데이터셋을 구축한다 [Figure 5]. 이러한 과정에서 수정 힌트는 학습 프롬프트에 포함되어 정책이 이전의 실수를 회피하도록 돕는다 [Figure 6].

정량적 결과로서, MobileForge로 적응시킨 Qwen3-VL-8B 모델은 AndroidWorld 벤치마크에서 67.2% Pass@3를 달성하여, 폐쇄형 데이터로 학습된 GUI 특화 모델인 GUI-Owl-1.5-8B(69.0%)와 유사한 성능을 보였다 [Figure 1]. 또한, ForgeOwl-8B 모델은 AndroidWorld에서 77.6% Pass@3를 기록하고, 학습 데이터에 없던 MobileWorld GUI-only 분할에서도 41.0%의 성공률을 달성하여 최강의 오픈 데이터 모바일 GUI 에이전트로 자리매김하였다 [Table 1, Table 2].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 모바일 GUI 에이전트가 주석 없이(Annotation-Free) 스스로 타겟 앱 환경에 적응하고 성능을 개선할 수 있는 통합 프레임워크를 정립하였다. MobileGymHiFPO의 결합은 파편화된 롤아웃 경험을 구조화된 피드백과 정책 최적화 신호로 변환함으로써 효율적인 학습을 가능케 한다. 이는 학계와 산업계에서 모바일 앱의 잦은 변화에 유연하게 대응할 수 있는 고성능 자동화 에이전트 개발의 새로운 표준을 제시하며, 향후 더 복잡한 멀티 앱 워크플로우와 실사용 기기 환경으로의 확장을 예고한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글