[논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

2026년 6월 11일수정: 2026년 6월 11일

링크: 논문 PDF로 바로 열기

본 논문은 컴퓨터 사용 에이전트(Computer-Use Agents)의 실세계 적응성과 장기 작업 수행 능력을 평가하기 위한 통합 벤치마크인 WeaveBench를 제안합니다.

Part 1: 요약 본문

메타데이터

저자: Wanli Li, Bowen Zhou, Yunyao Yu, Zhou Xu, Yifan Yang, Dongsheng Li, Caihua Shan

1. Key Terms & Definitions (핵심 용어 및 정의)

Computer-Use Agent: 키보드 및 마우스 입력을 통해 GUI 환경에서 인간처럼 컴퓨터 작업을 자율적으로 수행하는 AI 시스템을 의미합니다.
Long-Horizon Task: 단일 단계의 단순 작업이 아닌, 여러 개의 하위 작업이 순차적으로 결합되어 완료까지 긴 시간이 소요되는 복합적인 작업을 뜻합니다.
Hybrid Interface: 웹 브라우저 기반 환경뿐만 아니라 데스크톱 애플리케이션 및 다양한 GUI 요소가 혼합된 복합적인 운영체제 환경을 의미합니다.
WeaveBench: 실세계의 복잡하고 긴 호흡의 작업을 반영하여 컴퓨터 에이전트의 수행 능력을 다각도로 평가하기 위해 설계된 새로운 벤치마크 프레임워크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

기존의 컴퓨터 에이전트 평가 벤치마크는 주로 단일 브라우저 기반 작업에 국한되어 있어, 실제 데스크톱 환경의 복잡한 Long-Horizon 작업 수행 능력을 평가하는 데 한계가 있습니다. 많은 연구가 제한된 스크립트 환경이나 정적인 웹 인터페이스에서 수행되어, 에이전트가 현실 세계의 Hybrid Interface와 다양한 애플리케이션 간의 상호작용 상황에서 직면하는 복잡성을 충분히 포착하지 못합니다. 본 연구는 이러한 평가 체계의 미흡함을 해결하고, 에이전트가 실제 사용자 환경에서 얼마나 효과적으로 도구와 인터페이스를 전환하며 목적을 달성하는지 정량적으로 측정하고자 합니다 [Figure 1].

Figure 1: WeaveBench의 전반적 개념도

Figure 1 — WeaveBench의 전반적 개념도

3. Method & Key Results (제안 방법론 및 핵심 결과)

WeaveBench는 에이전트의 인지적 추론 능력과 장기적인 실행력을 평가하기 위해 고안된 다층적인 태스크 모음으로 구성됩니다. 본 프레임워크는 에이전트가 단일 데스크톱 환경에서 파일 관리, 이메일 연동, 복잡한 문서 작성 등 실제 사용자의 업무 흐름을 반영한 작업들을 수행하도록 설계되었습니다 [Figure 2]. 주요 실험 결과, 기존의 최신 에이전트 모델들은 단순한 검색이나 클릭 작업에서는 높은 성능을 보였으나, Long-Horizon 작업 수행 시 컨텍스트 유지의 어려움과 Error Rate 증가로 인해 전체 성공률(Success Rate)이 현저히 낮아지는 경향을 보였습니다. 특히 Hybrid Interface 환경에서 애플리케이션 간의 전환이 요구되는 작업의 경우, 특정 모델은 Latency 측면에서 높은 효율성을 보였음에도 불구하고 최종적인 작업 완수율(Task Completion Rate)은 낮게 나타나, 모델의 범용적 실무 적용 가능성에 개선의 여지가 있음을 입증하였습니다.

Figure 2: 작업 수행 프로세스 구조

Figure 2 — 작업 수행 프로세스 구조

4. Conclusion & Impact (결론 및 시사점)

본 논문은 실세계 컴퓨터 사용 환경을 정밀하게 모사한 WeaveBench를 통해 에이전트 모델의 기술적 한계와 발전 방향을 제시합니다. 연구진은 에이전트가 단순히 웹 페이지를 탐색하는 수준을 넘어, 복합적인 데스크톱 환경에서도 안정적인 작업을 수행할 수 있도록 하는 평가 지표의 중요성을 강조합니다. 본 연구는 향후 범용적인 AI 에이전트가 실제 사무 환경에 배치되기 위한 핵심적인 평가지표를 확립함으로써, 학계와 산업계가 보다 견고한 지능형 오토메이션 기술을 개발하는 데 중요한 이정표가 될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation
현재글 : [논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces
다음글 [논문리뷰] Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback