[논문리뷰] Workflow-GYM: Towards Long-Horizon Evaluation of Computer-use Agentic tasks in Real-World Professional Fields본 연구는 기존 에이전트 벤치마크가 지나치게 단순하거나, 실제 전문 업무의 복잡성을 충분히 반영하지 못한다는 한계를 해결하고자 합니다. 기존의 단기적인 작업 위주 평가는 실세계 환경에서 요구되는 고도의 Planning 능력과 Error Correction 능력을 측정하는 데 한계가 있습니다.#Review#Computer-use Agents#Long-Horizon Evaluation#Real-World Workflows#Agentic Tasks#Benchmark Platform#Professional Fields2026년 6월 9일댓글 수 로딩 중