#Reproducibility

15개의 포스트

[논문리뷰] AgentCompass: A Unified Evaluation Infrastructure for Agent Capabilities

본 논문은 LLM 기반 Agent의 성능을 평가하기 위한 인프라가 극도로 파편화되고 복잡하게 얽혀 있는 문제를 해결하고자 한다. 기존의 평가 방식은 특정 도메인에 고착화되어 있거나, 실행 환경과 평가 프로토콜이 강하게 결합되어 있어 재현성(Reproducibility)을 저해하고 반복적인 엔지니어링 비용을 발생시킨다 .

#Review #LLM-based Agents #Evaluation Infrastructure #Benchmarking #Trajectory Analysis #Agentic Capabilities #Reproducibility

2026년 7월 15일

[논문리뷰] BrainSurgery: Reproducible and Reliable Declarative Weight Manipulations for Model Editing and Upcycling

본 논문은 파편화되어 있고 재현하기 어려운 기존의 Ad-hoc 가중치 수정 방식들을 체계적이고 선언적인 파이프라인으로 통합하는 것을 목표로 합니다. 기존 연구들은 코드 수준에서 가중치를 하드코딩하거나 복잡한 파이썬 스크립트에 의존하여, 수정 과정의 투명성이 낮고 버전 관리가 어렵다는 한계를 지닙니다.

#Review #Model Editing #Model Upcycling #Weight Manipulation #Declarative Framework #Reproducibility #Neural Network Surgery

2026년 6월 9일

[논문리뷰] Evaluation Cards: An Interpretive Layer for AI Evaluation Reporting

본 논문은 현재 AI 평가 생태계가 파편화되어 있어, 모델의 성능 지표를 신뢰하거나 비교하기 어렵다는 점을 해결하고자 합니다. 기존 연구들은 평가의 특정 측면만을 다루거나 정적인 보고서 형태에 머물러 있어, 실제 평가 파이프라인에서 발생하는 데이터들을 체계적으로 통합하지 못합니다.

#Review #AI Evaluation #Reporting Framework #Reproducibility #Transparency #Interpretive Layer #Benchmark Metadata #Rollout Hierarchy

2026년 6월 8일

[논문리뷰] FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

본 논문은 기존의 LLM 기반 리뷰 시스템들이 논문 본문의 서술에만 과도하게 의존하여, 실제 경험적 증거에 기반한 비판적 평가에 취약하다는 문제를 해결하고자 합니다. 대부분의 기존 시스템은 저자의 서술 품질이나 수사학적 프레임워크에 영향을 받기 쉬우며, 외부 증거(코드, 인접 연구)를 검증하지 못한다는 한계를 가집니다.

#Review #Peer Review #Evidence-Grounded #Claim Verification #Reproducibility #LLM Agent

2026년 4월 7일

[논문리뷰] Mozi: Governed Autonomy for Drug Discovery LLM Agents

약물 발견과 같은 고위험 과학 도메인에서 제한 없는 LLM 에이전트 가 겪는 도구 사용 환각, 재현 불가능성, 그리고 장기적 신뢰성 부족 문제를 해결하고자 합니다.

#Review #LLM Agents #Drug Discovery #Governed Autonomy #Multi-Agent System #Workflow Orchestration #Human-in-the-Loop #Computational Biology #Reproducibility

2026년 3월 5일

[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale

본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다.

#Review #SWE Agents #Reinforcement Learning #Task Collection #Language-Agnostic #Automated Pipeline #Docker #LLM Judges #Reproducibility

2026년 3월 2일

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

AI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.

#Review #LLM Agents #AI Research #Benchmark #Closed-loop Research #Agent Evaluation #Reproducibility #Real-world Tasks

2026년 2월 17일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.

#Review #Reproducibility #Paper-Code Discrepancy #Code Alignment #LLM Evaluation #Synthetic Data Generation #Quality Assurance #Scientific Automation

2026년 1월 20일

[논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI

본 논문은 대규모 언어 모델(LLM)을 위한 고품질 데이터 준비 파이프라인의 파편화된 현상 과 표준화 부족 문제 를 해결하고자 합니다. 특히, LLM 기반의 데이터 합성 및 반복적인 의미론적 정제 를 효과적으로 지원하는 통합적이고 확장 가능한 LLM 구동 데이터 준비 프레임워크 를 구축하는 것이 목표입니다.

#Review #LLM Data Preparation #Workflow Automation #Data-Centric AI #Synthetic Data #Multi-Agent System #Framework #Reproducibility

2025년 12월 22일

[논문리뷰] CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis

본 논문은 AI/ML 논문 내 인용 문맥에서 재현성(reproducibility) 지향 감성을 식별하기 위한 CC30k 데이터셋 을 구축하는 것을 목표로 합니다. 이는 계산적 재현성 연구를 위한 자원 부족 문제를 해결하고, 대규모 언어 모델(LLM)이 재현성 관련 감성을 효과적으로 예측하도록 훈련하는 기반을 마련합니다.

#Review #Citation Contexts #Reproducibility #Sentiment Analysis #Large Language Models #Crowdsourcing #Dataset #Machine Learning #Science of Science

2025년 11월 13일

[논문리뷰] A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

본 논문은 기존의 LLM 코드 생성 평가 벤치마크가 단편적인 코드 스니펫 에 집중하고, 불안정한 평가 방식 을 사용하며, 실제 리포지토리 컨텍스트 를 반영하지 못하여 AI 생성 코드의 보안을 충분히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #AI-Generated Code Security #LLM Evaluation #Repository-Level Benchmark #Code Security #Vulnerability Detection #Static Analysis #Reproducibility #Context-Awareness

2025년 9월 1일

[논문리뷰] BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent

현재 Deep-Research 에이전트 평가 벤치마크(예: BrowseComp)는 라이브 웹 검색 API 에 의존하여 공정성, 재현성 및 투명성 측면에서 중대한 한계를 가집니다.

#Review #Benchmarking #Deep-Research Agents #LLMs #Retrieval #Curated Corpus #Evaluation #Fairness #Transparency #Reproducibility

2025년 8월 12일

[논문리뷰] Gaperon: A Peppered English-French Generative Language Model Suite

논문은 대규모 언어 모델 훈련의 투명성과 재현성을 높이기 위해 프랑스어-영어 이중 언어 생성형 언어 모델 스위트 GAPERON 을 공개합니다.

#Review #Bilingual LLMs #Data Curation #Benchmark Contamination #Data Poisoning #Open Science #Reproducibility #Generative Models #French-English

2025년 10월 30일

[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.

#Review #AI Agents #Benchmarking #Scientific Research #LLM Evaluation #Agentic AI #Tool Use #Reproducibility #Cost-Aware Evaluation

2025년 10월 27일