[논문리뷰] iOSWorld: A Benchmark for Personally Intelligent Phone Agents
링크: 논문 PDF로 바로 열기
메타데이터
저자: Lawrence Keunho Jang, Mareks Woodside, Geronimo Carom, Andrew Keunwoo Jang, Jing Yu Koh, Ruslan Salakhutdinov
1. Key Terms & Definitions (핵심 용어 및 정의)
- iOSWorld: 26개의 네이티브 iOS 앱과 단일 사용자 페르소나(Jordan Avery)의 개인 데이터를 통합하여 구성한 최초의 인터랙티브 iOS 시뮬레이터 벤치마크입니다.
- Personally Intelligent Agent: 단순한 샌드박스 환경에서 독립적인 명령을 수행하는 것을 넘어, 기기 내 사용자의 정체성, 이력, 선호도를 추론하여 상황에 맞는 지능적인 행동을 수행할 수 있는 에이전트 역량을 의미합니다.
- Vision+XML Setting: 스크린샷 이미지뿐만 아니라, XCUITest 프레임워크를 통해 추출된 구조화된 Accessibility Tree(XML 포맷)를 에이전트에게 추가 제공하여 더 정확한 UI 요소 식별과 상호작용을 가능하게 하는 설정입니다.
- LLM-as-a-Judge: 인간 평가자 수준의 높은 일치도($\kappa=0.77$)를 가진 GPT-5.4-Mini를 활용하여 에이전트의 전체 태스크 수행 궤적(Trajectory)을 바이너리(Pass/Fail) 및 루브릭(Rubric) 기반으로 자동 평가하는 프레임워크입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 기존 모바일 에이전트 벤치마크가 사용자의 지속적인 데이터와 상호 연관된 개인적 문맥을 결여하고 있다는 점을 지적하며, '개인 지능(Personal Intelligence)'을 갖춘 에이전트 평가의 필요성을 제기합니다. 기존 연구들은 주로 안드로이드나 웹 환경의 격리된 환경에서 단일 태스크만을 수행하도록 설계되어 있어, 실제 사용자의 일상처럼 여러 앱을 넘나드는 연속적인 정보 처리 능력을 평가하지 못합니다. 저자들은 26개의 앱이 동일한 사용자 데이터를 공유하는 iOSWorld를 구축하여, 실제 스마트폰 사용 시나리오와 유사한 복잡한 환경에서의 에이전트 성능을 측정하고자 합니다 [Figure 1].
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 133개의 태스크를 Single-app, Multi-app, Memory/Personalization의 3가지 카테고리로 구성하여 에이전트의 Reasoning 능력을 평가합니다. 에이전트가 개인의 과거 기록(메시지, 금융 내역, 여행 일정 등)에서 패턴을 발견하고 여러 앱(예: QuickBite → MyBank → Mail)을 연계하여 작업하도록 설계하였습니다 [Figure 2]. 실험 결과, 최신 Frontier 모델들은 Vision+XML 환경에서 압도적인 성능 향상을 보였으며, 최고 구성(Opus 4.6)은 전체 태스크에서 52%의 Pass rate를 기록하였습니다 [Table 3]. 특히 Vision+XML 접근 방식은 강력한 모델들의 성능을 최대 26% 포인트 상승시켰으나, 모델 규모가 작은 모델들은 추가적인 XML 정보 활용에 어려움을 겪으며 성능이 오히려 저하되거나 개선되지 않는 현상을 보였습니다 [Figure 4]. 가장 복잡한 Multi-app 태스크에서는 여전히 37%의 낮은 성공률을 보이며, 많은 경우 50-step의 제한된 예산 안에서 문제를 해결하지 못하는 모습을 보였습니다 [Figure 3].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 실제 기기 환경의 복잡성과 개인화된 데이터의 통합을 고려한 차세대 모바일 에이전트 평가의 새로운 기준을 제시합니다. 실험을 통해 에이전트의 성능이 시각 정보뿐만 아니라 Accessibility Tree와 같은 구조적 데이터 제공에 크게 의존함을 입증하였으며, 멀티앱 환경에서의 계획(Planning) 및 루프 탈출 능력이 핵심 과제임을 확인했습니다. iOSWorld의 공개는 학계 및 산업계가 더욱 개인화되고 능동적인 AI 어시스턴트를 개발하는 데 기여하며, 특히 보안 및 프라이버시가 중요한 실제 사용자 데이터 처리 기술의 발전을 견인할 것으로 기대됩니다.
Part 2: 중요 Figure 정보

Figure 1 — iOSWorld 벤치마크 개요

Figure 3 — 모달리티별 멀티앱 태스크 수행 비교

Figure 5 — 성공적인 메모리/개인화 태스크 궤적
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces
- [논문리뷰] Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill
- [논문리뷰] When Gradients Collide: Failure Modes of Multi-Objective Prompt Optimization for LLM Judges
- [논문리뷰] Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation
- [논문리뷰] Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning
Review 의 다른글
- 이전글 [논문리뷰] Trust the Right Teacher: Quality-Aware Self-Distillation for GUI Grounding
- 현재글 : [논문리뷰] iOSWorld: A Benchmark for Personally Intelligent Phone Agents
- 다음글 [논문리뷰] Adaptive Volumetric Mechanical Property Fields Invariant to Resolution
댓글