[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.#Review#Agent Evaluation#Long-Horizon#Native-Runtime#Multimodal#Reproducible#Hybrid Verification2026년 5월 14일댓글 수 로딩 중
[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows본 논문은 기존의 도구 사용 벤치마크가 실제 생산성 워크플로우의 복잡성을 제대로 반영하지 못하는 한계를 해결하기 위해 제안되었습니다. 현재의 벤치마크들은 주로 AI가 생성한 쿼리나 가상의 도구에 의존하며, 단기적이고 폐쇄적인 작업에 국한되어 있습니다.#Review#Autonomous LLM Agents#Agent Evaluation#General AI Assistant#Tool-use#Workflow Management2026년 4월 19일댓글 수 로딩 중
[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI ResearchAI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.#Review#LLM Agents#AI Research#Benchmark#Closed-loop Research#Agent Evaluation#Reproducibility#Real-world Tasks2026년 2월 17일댓글 수 로딩 중
[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.#Review#Large Language Models#Language Agents#Long Context#Context Rot#Benchmarking#Context Management#Tool Use#Agent Evaluation#Dynamic Environments2026년 2월 9일댓글 수 로딩 중
[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.#Review#Process Reward Models#Tool-using Agents#Benchmark#Reinforcement Learning#Large Language Models#Reward-guided Search#Agent Evaluation#Step-level Rewards2026년 1월 20일댓글 수 로딩 중
[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.#Review#E-commerce#Foundation Agents#LLM Agents#Benchmark#Agent Evaluation#Tool Use#Multi-step Reasoning#Real-world Scenarios2025년 12월 9일댓글 수 로딩 중
[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.#Review#Agent Environments#Agent Evaluation#LLM Agents#Asynchronous Systems#Reinforcement Learning#Tool Use#Multi-agent Collaboration#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers본 논문은 Model Context Protocol ( MCP )을 통해 외부 데이터 소스 및 도구와 상호작용하는 LLM 의 평가에 있어 기존 벤치마크의 한계를 해결하고자 합니다.#Review#Large Language Models#Benchmarking#Model Context Protocol#Tool Use#Real-World Applications#Agent Evaluation#Long Context#Unknown Tools2025년 8월 21일댓글 수 로딩 중
[논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents본 논문은 상업용 컴퓨터 사용 에이전트(CUA) 시스템의 핵심 세부 정보가 비공개인 현 상황에서, 연구 커뮤니티가 CUA의 역량, 한계, 위험을 연구할 수 있는 포괄적인 오픈 소스 프레임워크 를 제공하는 것을 목표로 합니다. 특히, 대규모 CUA 데이터 및 기초 모델 을 확장하기 위한 개방형 기반을 구축하고자 합니다.#Review#Computer-Use Agents#Vision-Language Models#Chain-of-Thought Reasoning#Large-scale Dataset#Open-source Framework#Desktop Automation#Agent Evaluation2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs본 논문은 정적 데이터셋 기반의 평가가 LLM 기반 에이전트 의 실제 역량(특히 동적 환경 및 다단계 상호작용)을 적절히 측정하지 못하는 문제점을 해결하고자 합니다.#Review#Agent Evaluation#Task Generation#Knowledge Graphs#Multimodal AI#Web Interaction#Document Comprehension#LLM-driven Agents2025년 10월 7일댓글 수 로딩 중