[논문리뷰] MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented EnvironmentsarXiv에 게시된 'MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments' 논문에 대한 자세한 리뷰입니다.2025년 12월 22일댓글 수 로딩 중
[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task ExecutionHaoze Wu이 arXiv에 게시한 'The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution' 논문에 대한 자세한 리뷰입니다.2025년 10월 30일댓글 수 로딩 중
[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use AgentsarXiv에 게시된 'OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.2025년 10월 29일댓글 수 로딩 중
[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated ToolsXiaorui Wang이 arXiv에 게시한 'MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools' 논문에 대한 자세한 리뷰입니다.2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI AgentsJames Zou이 arXiv에 게시한 'Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents' 논문에 대한 자세한 리뷰입니다.2025년 9월 9일댓글 수 로딩 중
[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP ServersShashank Biju이 arXiv에 게시한 'MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers' 논문에 대한 자세한 리뷰입니다.2025년 8월 29일댓글 수 로딩 중
[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Querieshuuuyeah이 arXiv에 게시한 'LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries' 논문에 대한 자세한 리뷰입니다.2025년 8월 22일댓글 수 로딩 중