본문으로 건너뛰기

[논문리뷰] GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents

링크: 논문 PDF로 바로 열기

메타데이터

저자: Xiao Zhou, Siyue Zhang, Yilun Zhao, Jinbiao Wei, Tingyu Song, Arman Cohan, Chen Zhao


## 1. Key Terms & Definitions (핵심 용어 및 정의)

  • GUI Agents: 스크린의 시각적 정보를 관찰하고, 클릭, 타이핑, 드래그 등 화면상의 제어 요소를 사용하여 작업을 수행하는 에이전트.
  • Skill-Mediated CLI Agents: 애플리케이션 기능을 프로그램적으로 추상화한 커스텀 Skill Layer를 통해 작업을 수행하는 에이전트.
  • Execution Bottlenecks: 특정 상호작용 방식(GUI vs. CLI)에서 작업 완수를 방해하는 구조적 한계점.
  • Verifier-Guided Skill Patching: 검증기(Verifier)의 피드백을 통해 부족한 기능을 보완하여 Skill Interface를 수정하는 진단 기법.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 기존의 Computer-Use 에이전트 평가 방식이 GUI와 CLI라는 상호작용 모달리티(Modality)의 차이를 모델 성능, 작업 환경, 에이전트의 제어 능력과 혼동하고 있다는 점을 지적한다. 기존 연구들은 환경과 작업 구성이 서로 달라 모달리티 자체의 한계와 모델의 일반적 역량을 분리하여 분석하기 어렵다 [Figure 1]. 저자들은 작업 목표, 초기 상태, 최종 상태 검증기가 고정된 통제된 환경에서 GUI와 CLI 에이전트의 성능 차이와 그 원인을 정밀하게 진단하고자 한다 [Figure 3].

Figure 1: GUI와 CLI 에이전트 비교 개요

Figure 1 — GUI와 CLI 에이전트 비교 개요

Figure 3: 벤치마크 구축 파이프라인

Figure 3 — 벤치마크 구축 파이프라인

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 저자들은 18개 애플리케이션과 12개 워크로드를 포함하는 440개 데스크탑 작업으로 구성된 Execution-Layer Benchmark를 구축하였다 [Figure 2]. 실험 결과, 최강의 GUI Agent (GPT-5.4)는 59.1%의 Full Pass Rate를 기록하여, CLI 기반 에이전트(48.2%)를 능가하는 것으로 나타났다 [Table 1]. 하지만 CLI 에이전트의 낮은 성능은 주로 Skill Coverage 부족에 기인하며, 검증기 가이드 기반의 Patched-Skill 환경에서 CLI의 성공률은 69.3%까지 상승했다 [Table 2]. GUI 에이전트는 주로 Visual Grounding과 긴 Workflow Execution 과정에서 병목 현상을 겪는 반면, CLI 에이전트는 Skill CoverageImplicit Default Reconstruction 오류에 취약하다는 점을 확인하였다 [Figure 4].

Figure 4: GUI 및 CLI 에러 분류 분포

Figure 4 — GUI 및 CLI 에러 분류 분포

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 GUI와 CLI 에이전트가 각기 다른 구조적 병목 현상을 가지고 있음을 실증적으로 규명하였다. GUI는 시각적 제어와 상태 추적의 문제, CLI는 인터페이스 추상화 및 기술적 도구 범위의 확장이 핵심적인 기술적 과제임을 시사한다. 이 연구는 향후 범용 컴퓨터 사용 에이전트 설계 시, 단순한 모델의 확장뿐만 아니라 인터페이스 모달리티에 최적화된 작업 구조 및 Skill Layer 구축이 필수적임을 학계와 산업계에 제언한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글