#Multi-dimensional Evaluation

3개의 포스트

[논문리뷰] AcademiClaw: When Students Set Challenges for AI Agents

기존 OpenClaw 생태계의 벤치마크들은 주로 보조 수준(assistant-level)의 단순 업무 평가에 치중되어 있어, 실제 학술 및 전문 분야의 고난도 업무 수행 능력을 평가하는 데 한계가 있습니다 . 이러한 좁은 평가 범위는 OpenClaw 에이전트의 실제 역량에 대한 편향된 인식을 야기합니다.

#Review #Agent Benchmarking #OpenClaw #Academic-level Tasks #GPU-intensive #Multi-dimensional Evaluation #Behavioral Phenotypes #Autonomous Agents

2026년 5월 4일

[논문리뷰] SkillNet: Create, Evaluate, and Connect AI Skills

AI 에이전트가 단편적인 경험을 체계적으로 축적하고 전이 가능한 스킬로 통합하는 메커니즘이 부족하여 발생하는 '바퀴 재발명' 문제와 비효율성을 해결하는 것을 목표로 합니다. 이를 위해, 에이전트가 경험을 지속적이고 재사용 가능한 능력 으로 변환할 수 있는 SkillNet 이라는 개방형 인프라를 구축하고자 합니다.

#Review #AI Agents #Skill Management #Knowledge Engineering #Skill Ontology #Multi-dimensional Evaluation #LLM-based Agents #Skill Reuse #Transferable Mastery

2026년 3월 5일

[논문리뷰] MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

본 논문은 다양한 라우팅 요구, 비결정론적 매핑 서비스, 제한된 재현성으로 인해 복잡한 실세계 모빌리티 시나리오에서 LLM 기반 경로 계획 에이전트 의 체계적인 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Large Language Models #Route Planning Agents #Benchmarking #Real-World Mobility #API Replay Sandbox #Multi-dimensional Evaluation #Tool-augmented Agents

2026년 2월 26일