[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI ResearchAI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.#Review#LLM Agents#AI Research#Benchmark#Closed-loop Research#Agent Evaluation#Reproducibility#Real-world Tasks2026년 2월 17일댓글 수 로딩 중
[논문리뷰] The Role of Computing Resources in Publishing Foundation Model Research본 논문은 GPU, 데이터, 인적 자원과 같은 컴퓨팅 리소스가 파운데이션 모델(FM) 연구의 과학적 발전 및 출판에 미치는 영향을 평가합니다. 특히 이러한 리소스 접근성이 연구 성과, 출판율, 인용 수에 어떤 상관관계를 가지는지 분석하고, 리소스 불균형이 AI 연구 생태계에 미치는 영향을 탐구하는 것을 목표로 합니다.#Review#Foundation Models#Computing Resources#GPU Disparity#AI Research#Publication Bias#Resource Allocation#Research Transparency2025년 10월 16일댓글 수 로딩 중
[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.#Review#LLM#Scientific Problem Solving#AI Research#Iterative Refinement#Autonomous Agents#Generative AI#Evaluation Framework#Problem Extraction2025년 10월 8일댓글 수 로딩 중