#Closed-loop Research

1개의 포스트

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

AI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.

#Review #LLM Agents #AI Research #Benchmark #Closed-loop Research #Agent Evaluation #Reproducibility #Real-world Tasks

2026년 2월 17일