#Cost-Aware Evaluation

1개의 포스트

[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.

#Review #AI Agents #Benchmarking #Scientific Research #LLM Evaluation #Agentic AI #Tool Use #Reproducibility #Cost-Aware Evaluation

2025년 10월 27일