본문으로 건너뛰기

[논문리뷰] Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

링크: 논문 PDF로 바로 열기

메타데이터

저자: Weizheng Wang, Linchun Li, Yumou Liu, Xuanhe Zhou, Zirui Tang


1. Key Terms & Definitions (핵심 용어 및 정의)

  • Workspace Learning: AI 에이전트가 작업 공간 내의 여러 이질적인 파일(heterogeneous files)들 사이의 명시적/암시적 의존 관계를 식별하고, 추론하여 최종 작업을 수행하는 능력.
  • File Lineage: 파일 간의 버전 이력, 파생 관계 등을 추적하는 능력으로, 에이전트가 최신 데이터를 식별하는 데 필수적인 요소.
  • Rubrics Pass Rate: 작업의 최종 결과물뿐만 아니라 중간 단계의 결정들까지 포괄하는 세부 평가 지표의 성공률.
  • Agent-as-a-Judge: 에이전트의 수행 결과와 실행 궤적(execution trajectory)을 또 다른 AI 에이전트가 평가하여 정량적/정성적 점수를 산출하는 평가 방식.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 에이전트 벤치마크가 실제 업무 환경의 복잡한 파일 의존성(Large-Scale File Dependencies)을 충분히 반영하지 못하는 한계를 해결하기 위해 제안되었다. 현재 에이전트들은 단순한 GUI 조작이나 독립적인 파일 QA 작업에서는 성과를 내지만, 수천 개의 파일과 복잡한 폴더 구조가 얽힌 실제 지식 노동 환경에서는 정보 누락, 논리 불일치 등 심각한 성능 저하를 보인다 [Figure 2]. 기존 연구들은 주로 단일 스타일의 파일 시스템이나 정보가 완결된 프롬프트 환경에 의존하여, 실제 업무의 핵심인 데이터 간의 관계 파악 및 다단계 추론 능력을 평가하는 데 실패하고 있다 [Table 1].

Figure 2: Workspace-Bench 전체 개요

Figure 2 — Workspace-Bench 전체 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 5개의 전문적 페르소나와 20,476개의 파일(최대 20GB)을 포함하는 대규모 벤치마크 데이터셋인 Workspace-Bench를 구축하였다. 제안된 방법론은 페르소나 기반의 파일 시스템 시뮬레이션, 실제 워크플로우에 기반한 388개의 의존성 중심 태스크 구성, 그리고 중간 단계까지 포함하는 7,399개의 평가 루브릭을 통해 에이전트의 Workspace Learning 능력을 체계적으로 측정한다 [Figure 3]. 28개의 에이전트 설정(4개의 Harness + 7개의 Foundation Model)을 평가한 결과, 전체 평균 루브릭 성공률은 47.4%에 그쳤으며, 최고의 조합조차 68.7%를 기록하여 인간의 80.7%와 상당한 격차를 보였다 [Figure 1]. 또한 태스크 난이도가 Easy에서 Hard로 상승할 때 성공률이 57.6%에서 40.5%로 급격히 하락하는 경향을 확인하였다 [Figure 7].

Figure 1: Workspace-Bench-Lite 성능 비교

Figure 1 — Workspace-Bench-Lite 성능 비교

Figure 3: 데이터 수집 및 큐레이션 파이프라인

Figure 3 — 데이터 수집 및 큐레이션 파이프라인

4. Conclusion & Impact (결론 및 시사점)

본 논문은 에이전트의 업무 수행 능력을 Isolated Skill 평가에서 실제 지식 노동 환경의 Workspace-Aware Reasoning으로 전환해야 함을 시사한다. 연구 결과, 현재의 에이전트들은 이질적인 파일 간의 관계를 이해하고 버전 이력을 추적하는 데 근본적인 한계가 있음을 입증하였다. 또한, 저자들이 제시한 'Workspace Learning 5단계 프레임워크'는 향후 자율형 에이전트가 데이터 의존성 문제를 극복하고 더 안정적이고 실질적인 생산성 도구로 발전하기 위한 로드맵을 제공한다 [Figure 14].

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글