#Workflow Management

1개의 포스트

[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

본 논문은 기존의 도구 사용 벤치마크가 실제 생산성 워크플로우의 복잡성을 제대로 반영하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 벤치마크들은 주로 AI가 생성한 쿼리나 가상의 도구에 의존하며, 단기적이고 폐쇄적인 작업에 국한되어 있습니다.

#Review #Autonomous LLM Agents #Agent Evaluation #General AI Assistant #Tool-use #Workflow Management

2026년 4월 19일