[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.#Review#AI Research Agents#LLM Agents#Machine Learning Benchmarks#Scientific Discovery#Code Generation#Evaluation Metrics#Scaffolds#Reproducibility2026년 2월 9일댓글 수 로딩 중