#AI Research

3개의 포스트

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

AI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.

#Review #LLM Agents #AI Research #Benchmark #Closed-loop Research #Agent Evaluation #Reproducibility #Real-world Tasks

2026년 2월 17일

[논문리뷰] The Role of Computing Resources in Publishing Foundation Model Research

본 논문은 GPU, 데이터, 인적 자원과 같은 컴퓨팅 리소스가 파운데이션 모델(FM) 연구의 과학적 발전 및 출판에 미치는 영향을 평가합니다. 특히 이러한 리소스 접근성이 연구 성과, 출판율, 인용 수에 어떤 상관관계를 가지는지 분석하고, 리소스 불균형이 AI 연구 생태계에 미치는 영향을 탐구하는 것을 목표로 합니다.

#Review #Foundation Models #Computing Resources #GPU Disparity #AI Research #Publication Bias #Resource Allocation #Research Transparency

2025년 10월 16일

[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems

본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.

#Review #LLM #Scientific Problem Solving #AI Research #Iterative Refinement #Autonomous Agents #Generative AI #Evaluation Framework #Problem Extraction

2025년 10월 8일