[논문리뷰] Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields

2026년 6월 9일수정: 2026년 6월 9일

링크: 논문 PDF로 바로 열기

본 논문은 컴퓨터 사용(Computer-use) 에이전트의 실세계 전문 업무 수행 능력을 평가하기 위한 종합적인 벤치마크 플랫폼인 Workflow-GYM을 제안합니다.

Part 1: 요약 본문

저자: Liya Zhu, Jingzhe Ding, Jian Zhang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Workflow-GYM: 실세계 전문 도메인에서의 복잡하고 긴 호흡의(Long-Horizon) 워크플로우를 평가하기 위해 설계된 대규모 에이전트 평가 프레임워크입니다.
Computer-use Agent: 실제 컴퓨터 환경에서 OS 및 애플리케이션 인터페이스를 조작하여 다단계 작업을 수행하는 AI 모델을 지칭합니다.
Long-Horizon Evaluation: 단순히 단일 단계의 지시를 수행하는 것을 넘어, 장기간의 추론과 계획이 필요한 연속적인 태스크 수행 능력을 평가하는 접근 방식입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 기존 에이전트 벤치마크가 지나치게 단순하거나, 실제 전문 업무의 복잡성을 충분히 반영하지 못한다는 한계를 해결하고자 합니다. 기존의 단기적인 작업 위주 평가는 실세계 환경에서 요구되는 고도의 Planning 능력과 Error Correction 능력을 측정하는 데 한계가 있습니다. 연구진은 실제 사용자가 직면하는 전문적인 소프트웨어 워크플로우를 체계적으로 구조화하여, 에이전트의 진정한 Generalization 능력을 검증할 필요성을 강조합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Workflow-GYM이라는 계층적 구조의 벤치마크를 통해 에이전트의 실무 수행 능력을 다각도로 측정합니다. 제안된 프레임워크는 다양한 전문 분야의 워크플로우를 Task Granularity에 따라 분류하여, Success Rate 및 Step-by-Step Accuracy를 정량적으로 평가합니다. 특히, 복잡도가 높은 Long-Horizon 태스크에서 기존 모델들은 Latency 증가와 Execution Failure에 취약함을 보이나, Workflow-GYM은 이를 통해 모델의 약점을 정밀하게 진단할 수 있습니다. 실험 결과, 제안된 평가 체계 하에서 최신 에이전트 모델들이 실무 환경의 Reliability 측면에서 개선이 필요함을 입증하였습니다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 컴퓨터 사용 에이전트가 실무 영역으로 진입하기 위한 필수적인 평가 표준을 제시합니다. Workflow-GYM은 에이전트 개발자들에게 모델의 논리적 추론 및 환경 상호작용 능력을 향상시킬 수 있는 구체적인 지표를 제공합니다. 향후 이 벤치마크는 더욱 자동화되고 안정적인 AI 비서 개발을 가속화하며, 인간과 AI 간의 협업 방식에 실질적인 변화를 가져올 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models
현재글 : [논문리뷰] Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields
다음글 [논문리뷰] WorldOlympiad: Can Your World Model Survive a Triathlon?