본문으로 건너뛰기

#Agent Evaluation

10개의 포스트

[논문리뷰] GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

댓글 수 로딩 중

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

댓글 수 로딩 중

[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

댓글 수 로딩 중

[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

댓글 수 로딩 중

[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations

댓글 수 로딩 중

[논문리뷰] OpenCUA: Open Foundations for Computer-Use Agents

댓글 수 로딩 중