[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.#Review#LLM Agents#Tool Use#Benchmarking#Model Context Protocol (MCP)#Cross-Domain Orchestration#Fuzzy Instructions#Multi-Step Tasks#Real-World Scenarios2025년 8월 29일댓글 수 로딩 중