[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution이 논문은 기존 언어 에이전트 벤치마크가 현실 세계의 다양성, 복잡성 및 장기적인 태스크 실행 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#Language Agents#Tool Use#Benchmarking#Long-Horizon Tasks#Realistic Environments#Multi-Application#Execution-Based Evaluation#Model Context Protocol (MCP)2025년 10월 30일댓글 수 로딩 중