[논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands
링크: 논문 PDF로 바로 열기
저자: Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou
핵심 연구 목표
기존 GUI 에이전트들이 주로 이산적인 클릭 예측에 의존하여 연속적이고 자유로운 형태의 드래그(예: 그림 그리기, 캡차 풀이)와 같이 즉각적인 시각적 인지와 조정이 필요한 복잡한 GUI 상호작용을 수행하기 어렵다는 문제를 해결합니다. 본 연구는 ShowUI-π 를 개발하여 디지털 환경에서 인간과 같은 정교한 연속 궤적 제어 를 가능하게 하는 최초의 흐름 기반 생성 모델을 제시하는 것을 목표로 합니다.
핵심 방법론
ShowUI-π 는 SmolVLA-450M 아키텍처를 기반으로 하며, 다음과 같은 핵심 설계를 통합합니다. (i) Unified Discrete-Continuous Actions 는 이산적 클릭과 연속적 드래그를 (x, y, m) 트리플릿 시퀀스로 통합하여 단일 모델로 유연하게 처리합니다. (ii) Flow-based Action Generation 은 경량 액션 전문가를 통해 연속적인 시각적 관찰로부터 점진적인 커서 조정을 예측하여 안정적이고 정확한 궤적을 생성합니다. 이를 위해 Flow Matching 기법을 사용하며, 성공적인 GUI 상호작용을 위해 초기 및 최종 단계에 가중치를 부여하는 Reweighting Scheme 과 방향 일관성을 강화하는 Directional Regularization 을 적용합니다. 또한, ScreenDrag 벤치마크 를 구축하여 PowerPoint, Captcha 등 5개 도메인에서 20K개의 드래그 궤적 데이터를 수집했습니다.
주요 결과
ShowUI-π 는 450M 파라미터로 ScreenDrag 벤치마크 에서 26.98% 의 온라인 성공률을 달성하여, SOTA 독점 모델인 Gemini-2.5-CUA (22.18%) 및 오픈소스 모델인 OpenCUA-7B (21.98%) 를 능가했습니다. 오프라인 평가에서는 78.55% 의 Endpoint Accuracy와 159.05px 의 Trajectory Error를 기록하며 Flow Matching 이 다른 모델링 접근법보다 효과적임을 입증했습니다. 특히, Temporal Weighting 적용 시 Captcha 태스크에서 48.50% 의 상당한 성능 향상을 보였습니다.
AI 실무자를 위한 시사점
본 연구는 기존 GUI 자동화 에이전트의 이산적 한계를 넘어, 연속적인 드래그 조작 이 필요한 복잡한 GUI 태스크를 처리할 수 있는 새로운 패러다임을 제시합니다. Flow-based generative models 의 적용은 로봇 공학의 정교한 제어 기술을 디지털 환경으로 확장하여, 보다 유연하고 인간과 유사한 GUI 조작 이 가능함을 보여줍니다. 또한, 새롭게 도입된 ScreenDrag 벤치마크와 데이터셋 은 GUI 에이전트의 연속 제어 능력을 평가하고 발전시키는 데 중요한 표준 자료가 될 것입니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] Motion Attribution for Video Generation
- 현재글 : [논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands
- 다음글 [논문리뷰] SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices