본문으로 건너뛰기

[논문리뷰] Xiaomi-GUI-0 Technical Report

링크: 논문 PDF로 바로 열기

메타데이터

저자: Wanxia Cao, Chengzhen Duan, Pei Fu, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

  • GUI Agent: VLM을 기반으로 화면 관측을 통해 터치, 스와이프 등 인터페이스 수준의 동작을 수행하는 지능형 에이전트.
  • Real-Device Hybrid Infrastructure: 물리적 기기와 샌드박스를 결합하여 실환경에 가까운 데이터 수집 및 모델 평가를 수행하는 하이브리드 인프라.
  • Error-Driven Data Flywheel: 실기기 Rollout 중 발생하는 실패 사례를 수집하고, 이를 교정 데이터로 변환하여 모델의 오류 인지 및 복구 능력을 지속적으로 개선하는 피드백 루프.
  • GSPO (Group Sequence Policy Optimization): GUI 에이전트 응답의 구조적 올바름과 단계를 고려하여 그룹 단위의 상대적 Advantage를 통해 정책을 최적화하는 강화학습 프레임워크.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 연구는 기존 GUI 에이전트 연구들이 의존하는 정적인 벤치마크나 시뮬레이션 환경이 실제 모바일 기기의 복잡한 상태 분포를 반영하지 못하는 한계를 해결하기 위해 수행되었다. 기존 모델들은 실제 서비스 환경에서의 계정 상태, 권한 다이얼로그, 캡차 등 다양한 비정상 상태(Abnormal states)를 경험하지 못해 실사용 환경에서 높은 성능을 보이기 어렵다. 저자들은 이러한 벤치마크 점수와 실사용 가용성 간의 Persistent gap을 메우기 위해 실기기 기반의 훈련 및 평가 체계가 필수적이라고 강조한다. 본 논문은 실기기를 중심으로 하는 하이브리드 인프라와 닫힌 루프(Closed-loop) 훈련 방식을 통해 실전 배치 가능한 에이전트를 구현하고자 한다.

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 연구는 실기기 훈련을 위한 하이브리드 인프라를 구축하고, SFT, Step RL, Agentic RL의 3단계 파이프라인을 통해 모델을 고도화하였다. 먼저, 실기기와 샌드박스를 효율적으로 관리하는 [Figure 1]에 제시된 하이브리드 구조를 통해 실환경 분포를 학습데이터에 반영하였다. 또한, 모델의 실패 사례를 교정 데이터로 재활용하는 에러 기반 데이터 플라이휠을 적용하여 모델의 자가 복구 능력을 강화하였다. 정량적 결과로서, 제안하는 Xiaomi-GUI-0는 실제 모바일 환경 기반의 RealMobile 벤치마크에서 72.0%의 높은 성공률을 달성하였다. 또한, 공인된 AndroidWorld 벤치마크에서도 78.9%의 성공률을 기록하여 기존의 오픈소스 및 프라이어터리 모델들을 유의미하게 상회하거나 대등한 성능을 입증하였다. 특히, RealMobile의 세부 도메인 테스트에서 Foundation 도메인 100% 성공, Memory & Knowledge 도메인에서 오픈소스 모델 중 압도적인 성능 우위를 점하는 성과를 보였다.

Figure 1: 실기기와 샌드박스를 결합한 하이브리드 인프라 구조를 설명하는 핵심 다이어그램

Figure 1 — 실기기와 샌드박스를 결합한 하이브리드 인프라 구조를 설명하는 핵심 다이어그램

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 실기기 기반의 닫힌 루프 환경이 deployable한 모바일 GUI 에이전트 구축에 핵심임을 증명한다. 제안된 Xiaomi-GUI-0는 실환경의 복잡한 비정상 상태를 효과적으로 처리하며, 정적인 벤치마크 점수 최적화를 넘어 실제 서비스 가용성을 대폭 향상시켰다. 이러한 연구는 향후 범용적인 GUI 에이전트가 실험실 환경을 벗어나 실제 스마트폰 및 차량용 인포테인먼트 등 다양한 실환경에 적용되는 데 중요한 이정표가 될 것이다.


Table 5: 제안 모델과 기존 모델들의 벤치마크 성공률을 비교한 핵심 결과 테이블

Table 5 — 제안 모델과 기존 모델들의 벤치마크 성공률을 비교한 핵심 결과 테이블

Table 6: 4가지 주요 능력 도메인별 세부 성능 비교 데이터

Table 6 — 4가지 주요 능력 도메인별 세부 성능 비교 데이터

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글