[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows본 논문은 기존의 도구 사용 벤치마크가 실제 생산성 워크플로우의 복잡성을 제대로 반영하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 벤치마크들은 주로 AI가 생성한 쿼리나 가상의 도구에 의존하며, 단기적이고 폐쇄적인 작업에 국한되어 있습니다.#Review#Autonomous LLM Agents#Agent Evaluation#General AI Assistant#Tool-use#Workflow Management2026년 4월 19일댓글 수 로딩 중