[논문리뷰] Terminal Agents Suffice for Enterprise Automation저자들은 터미널과 파일시스템을 통해 플랫폼 API와 직접 통신하는 최소한의 코딩 에이전트인 StarShell을 제안합니다 . StarShell은 사전 정의된 도구 레지스트리에 의존하지 않고, 문서나 API 응답을 통해 능동적으로 기능을 발견하고 작업을 구성합니다.#Review#Enterprise Automation#Agentic Systems#Terminal-based Agents#API Interaction#Model Context Protocol (MCP)#Coding Agents2026년 4월 1일댓글 수 로딩 중
[논문리뷰] MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented EnvironmentsarXiv에 게시된 'MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments' 논문에 대한 자세한 리뷰입니다.#Review#Mobile Agents#GUI Benchmarking#Agent-User Interaction#Tool-Augmented Agents#Model Context Protocol (MCP)#Long-Horizon Tasks#Reproducible Evaluation#Android Environment2025년 12월 22일댓글 수 로딩 중
[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task ExecutionHaoze Wu이 arXiv에 게시한 'The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution' 논문에 대한 자세한 리뷰입니다.#Review#Language Agents#Tool Use#Benchmarking#Long-Horizon Tasks#Realistic Environments#Multi-Application#Execution-Based Evaluation#Model Context Protocol (MCP)2025년 10월 30일댓글 수 로딩 중
[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use AgentsarXiv에 게시된 'OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agents#Tool Invocation#Benchmark#Model Context Protocol (MCP)#GUI Automation#Computer-Use Agents#Evaluation Metrics2025년 10월 29일댓글 수 로딩 중
[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated ToolsXiaorui Wang이 arXiv에 게시한 'MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools' 논문에 대한 자세한 리뷰입니다.#Review#Language Agents#Tool Use#Benchmarks#Model Context Protocol (MCP)#LLM Evaluation#Agentic AI#Real-World Performance2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI AgentsJames Zou이 arXiv에 게시한 'Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Research Reproducibility#Scientific Communication#Model Context Protocol (MCP)#Natural Language Interaction#Genomics#Single-Cell Analysis#Spatial Transcriptomics2025년 9월 9일댓글 수 로딩 중
[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP ServersShashank Biju이 arXiv에 게시한 'MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Tool Use#Benchmarking#Model Context Protocol (MCP)#Cross-Domain Orchestration#Fuzzy Instructions#Multi-Step Tasks#Real-World Scenarios2025년 8월 29일댓글 수 로딩 중
[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Querieshuuuyeah이 arXiv에 게시한 'LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Tool Use#Model Context Protocol (MCP)#Benchmarking#Large Language Models (LLMs)#Real-world Tasks#Evaluation#Error Analysis2025년 8월 22일댓글 수 로딩 중