#GPU-intensive

1개의 포스트

[논문리뷰] AcademiClaw: When Students Set Challenges for AI Agents

기존 OpenClaw 생태계의 벤치마크들은 주로 보조 수준(assistant-level)의 단순 업무 평가에 치중되어 있어, 실제 학술 및 전문 분야의 고난도 업무 수행 능력을 평가하는 데 한계가 있습니다 . 이러한 좁은 평가 범위는 OpenClaw 에이전트의 실제 역량에 대한 편향된 인식을 야기합니다.

#Review #Agent Benchmarking #OpenClaw #Academic-level Tasks #GPU-intensive #Multi-dimensional Evaluation #Behavioral Phenotypes #Autonomous Agents

2026년 5월 4일