#Cross-Domain Orchestration

1개의 포스트

[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.

#Review #LLM Agents #Tool Use #Benchmarking #Model Context Protocol (MCP)#Cross-Domain Orchestration #Fuzzy Instructions #Multi-Step Tasks #Real-World Scenarios

2025년 8월 29일