[논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?

2026년 4월 9일수정: 2026년 4월 9일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Yuxuan Zhang, Yubo Wang, Yipeng Zhu, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

ClawBench : 실제 생산 환경 웹사이트에서 AI 에이전트의 수행 능력을 평가하기 위해 설계된 153개의 일상 온라인 과제 데이터셋.
Write-heavy Tasks : 단순히 정보를 읽는(Read-only) 것이 아니라, 양식 작성, 구매, 예약, 신청 등 서버 측 상태(Server-side state)를 변경하는 작업.
Interception Mechanism : 웹사이트에서의 실제 트랜잭션 발생을 방지하기 위해, 브라우저 확장 프로그램과 CDP (Chrome DevTools Protocol)를 사용하여 최종 제출 요청(Final submission request)만을 안전하게 차단하는 기술.
Agentic Evaluator : 5개 계층의 행동 데이터를 바탕으로 에이전트와 인간의 실행 경로를 비교하여 성공 여부를 판별하는 LLM 기반 평가 시스템.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 벤치마크가 실제 웹 환경의 복잡성을 충분히 반영하지 못하는 한계를 극복하기 위해 ClawBench 를 제안한다. 기존 연구들인 WebArena 나 OSWorld 등은 보안 및 재현성을 위해 오프라인 샌드박스나 정적 페이지를 사용하여 실제 웹의 동적 특성(JavaScript 렌더링, 인증 흐름, 안티봇 방어 등)을 제거했다 [Figure 1]. 이러한 제약으로 인해 실생활에서 필수적인 '쓰기 작업' 중심의 과제에 대한 에이전트의 역량을 평가하기 어렵다. 결과적으로 에이전트가 실제 웹에서 실질적인 생산성을 발휘할 수 있는지에 대한 신뢰할 수 있는 데이터가 부족하다는 문제가 존재한다.

Figure 1: ClawBench 개요 및 성능 격차

Figure 1 — ClawBench 개요 및 성능 격차

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 실제 웹사이트에서 안전하게 에이전트를 평가하기 위해 5계층 기록 인프라와 최종 요청 인터셉션 메커니즘을 결합한 ClawBench 를 제안한다 [Figure 3]. 이 프레임워크는 인간 전문가가 수행한 경로를 Ground-truth로 삼고, 에이전트가 수행한 전체 경로를 동일한 환경에서 기록한 뒤 Agentic Evaluator 를 통해 비교 평가한다 [Figure 6]. 주요 실험 결과, 7개의 frontier 모델을 평가한 결과 최고 성능을 보인 Claude Sonnet 4.6 조차 ClawBench 에서 33.3%의 낮은 성공률을 기록했다 [Figure 2]. 특히 GPT-5.4 는 기존 벤치마크에서 65~75%의 성능을 보였으나 ClawBench 에서는 6.5%로 급격히 하락하여, 현재의 에이전트들이 구조화된 환경과 달리 실제 웹 환경에서의 복잡한 작업 수행에는 상당한 어려움을 겪고 있음을 보여준다 [Figure 1, Figure 5].

Figure 3: 평가 파이프라인 및 데이터 기록

Figure 3 — 평가 파이프라인 및 데이터 기록

Figure 6: Agentic Evaluator 추론 과정

Figure 6 — Agentic Evaluator 추론 과정

4. Conclusion & Impact (결론 및 시사점)

본 연구는 ClawBench 를 통해 AI 에이전트 평가를 오프라인 샌드박스에서 실시간 생산 환경 웹사이트로 확장했다는 점에서 큰 의미가 있다. 7개 모델의 성능 분석 결과, 기존 벤치마크의 성공이 곧 실제 웹에서의 범용적 능력으로 이어지지 않음을 확인하였다. 본 연구는 차세대 범용 AI 어시스턴트를 개발하기 위한 기술적 이정표를 제시하며, 오픈소스 데이터와 평가 파이프라인 공개를 통해 관련 생태계의 발전을 도모한다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Beyond Stochastic Exploration: What Makes Training Data Valuable for Agentic Search
현재글 : [논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?
다음글 [논문리뷰] DMax: Aggressive Parallel Decoding for dLLMs