[논문리뷰] PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control
링크: 논문 PDF로 바로 열기
저자: Jingxuan Wei, Xi Bai, Shan Liu, Caijun Jia, Zheng Sun, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Cheng Tan
1. Key Terms & Definitions (핵심 용어 및 정의)
- Precision-sensitive GUI tasks: 마우스 클릭이나 드래그가 특정 영역(region)이 아닌, 좌표(coordinate) 수준의 정밀도를 요구하는 기하학적 GUI 작업.
- Semantic-Execution Gap: 모델이 작업의 의미론적 의도(intent)는 정확히 파악하더라도, 이를 실행할 때 필요한 연속 공간상의 좌표 제어 실패로 인해 발생하는 성능 격차.
- PAGE Bench: 기하학적 GUI 제어를 평가하기 위해 제안된 벤치마크로, 4,906개의 문제와 224K개 이상의 프로세스 감독(process-supervised) GUI 액션으로 구성됨.
- PAGER: dependency-structured planning과 pixel-level execution을 결합하여 기하학적 구성 작업을 수행하는 정밀 인식 GUI 에이전트 프레임워크.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 연구는 기존 GUI 에이전트들이 주로 의존하는 'region-tolerant' 패러다임이 정밀한 기하학적 구성 작업에서 실패하는 근본적인 문제를 해결하고자 한다. 일반적인 GUI 에이전트는 버튼 클릭과 같이 허용 오차가 넓은 작업에는 능숙하지만, 기하학적 구성에서는 작은 좌표 오차가 종속적인 객체들의 왜곡을 초래하여 최종 결과물을 무효화하는 'cascading topological failures'를 유발한다 [Figure 1]. 이러한 정밀도 민감성(precision-sensitivity) 문제는 기존의 컴포넌트 기반 grounding 방식으로는 해결할 수 없으며, 연속적인 캔버스 공간에서의 point-level accuracy가 필수적이다.

Figure 1 — 정밀도 민감형 GUI 작업의 격차
3. Method & Key Results (제안 방법론 및 핵심 결과)
PAGER는 작업을 dependency-structured planning과 pixel-level execution으로 분해하여 수행한다 [Figure 2]. 우선 Planning Module은 구성 그래프를 유도하여 topologically valid한 서브태스크 순서를 생성하고, Execution Module은 이를 현재 캔버스 상태에 기초하여 구체적인 GUI 액션으로 변환한다. 모델 학습은 pixel-grounded supervised tuning을 통해 executable action grammar를 먼저 정립한 뒤, precision-aligned reinforcement learning을 통해 좌표 정확도와 기하학적 타당성(validity)을 최적화한다. 실험 결과, PAGER는 가장 강력한 일반 다중 모달 베이스라인인 Gemini-3.1-Pro 대비 Overall Score에서 21.1% 향상된 성능을 기록하였다 [Table 2]. 특히, 기존 GUI 에이전트들의 Step Success Rate가 9% 미만에 머무르는 반면, PAGER는 62.20%를 달성하여 정밀 제어 분야의 새로운 SOTA(State-of-the-art)를 확립하였다.

Figure 2 — PAGER 전체 프레임워크
4. Conclusion & Impact (결론 및 시사점)
본 논문은 정밀 기하학적 GUI 제어라는 새로운 작업 유형을 정의하고, 이를 해결하기 위한 전용 프레임워크인 PAGER를 제안하였다. PAGER의 성공은 단순한 의미론적 이해를 넘어, 종속적인 기하학적 관계를 고려한 점 단위의 정밀 제어가 GUI 에이전트의 차세대 역량임을 입증한다. 이 연구는 향후 CAD, 다이어그램 편집기, 과학적 시각화 도구 등 고도의 정밀도가 요구되는 인터페이스 환경에서 GUI 에이전트가 더 실질적이고 신뢰성 있게 활용될 수 있는 기반을 마련했다.

Figure 3 — PAGE Bench 구축 파이프라인
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL
- [논문리뷰] Computer-Using World Model
- [논문리뷰] Code2World: A GUI World Model via Renderable Code Generation
- [논문리뷰] Continual GUI Agents
- [논문리뷰] Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking
Review 의 다른글
- 이전글 [논문리뷰] OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation
- 현재글 : [논문리뷰] PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control
- 다음글 [논문리뷰] PhysBrain 1.0 Technical Report
댓글