[논문리뷰] FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification본 논문은 기존의 LLM 기반 리뷰 시스템들이 논문 본문의 서술에만 과도하게 의존하여, 실제 경험적 증거에 기반한 비판적 평가에 취약하다는 문제를 해결하고자 합니다. 대부분의 기존 시스템은 저자의 서술 품질이나 수사학적 프레임워크에 영향을 받기 쉬우며, 외부 증거(코드, 인접 연구)를 검증하지 못한다는 한계를 가집니다.#Review#Peer Review#Evidence-Grounded#Claim Verification#Reproducibility#LLM Agent2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Mozi: Governed Autonomy for Drug Discovery LLM Agents약물 발견과 같은 고위험 과학 도메인에서 제한 없는 LLM 에이전트 가 겪는 도구 사용 환각, 재현 불가능성, 그리고 장기적 신뢰성 부족 문제를 해결하고자 합니다.#Review#LLM Agents#Drug Discovery#Governed Autonomy#Multi-Agent System#Workflow Orchestration#Human-in-the-Loop#Computational Biology#Reproducibility2026년 3월 5일댓글 수 로딩 중
[논문리뷰] SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale본 논문은 대규모의 재현 가능한 소프트웨어 엔지니어링(SWE) 태스크 환경 부족 문제를 해결하고, 특히 강화 학습(RL) 기반 LLM 에이전트 훈련을 위한 언어 독립적인(language-agnostic) SWE 태스크 컬렉션 을 대규모로 구축하는 것을 목표로 합니다.#Review#SWE Agents#Reinforcement Learning#Task Collection#Language-Agnostic#Automated Pipeline#Docker#LLM Judges#Reproducibility2026년 3월 2일댓글 수 로딩 중
[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI ResearchAI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.#Review#LLM Agents#AI Research#Benchmark#Closed-loop Research#Agent Evaluation#Reproducibility#Real-world Tasks2026년 2월 17일댓글 수 로딩 중
[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.#Review#AI Research Agents#LLM Agents#Machine Learning Benchmarks#Scientific Discovery#Code Generation#Evaluation Metrics#Scaffolds#Reproducibility2026년 2월 9일댓글 수 로딩 중
[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.#Review#Reproducibility#Paper-Code Discrepancy#Code Alignment#LLM Evaluation#Synthetic Data Generation#Quality Assurance#Scientific Automation2026년 1월 20일댓글 수 로딩 중
[논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI본 논문은 대규모 언어 모델(LLM)을 위한 고품질 데이터 준비 파이프라인의 파편화된 현상 과 표준화 부족 문제 를 해결하고자 합니다. 특히, LLM 기반의 데이터 합성 및 반복적인 의미론적 정제 를 효과적으로 지원하는 통합적이고 확장 가능한 LLM 구동 데이터 준비 프레임워크 를 구축하는 것이 목표입니다.#Review#LLM Data Preparation#Workflow Automation#Data-Centric AI#Synthetic Data#Multi-Agent System#Framework#Reproducibility2025년 12월 22일댓글 수 로딩 중
[논문리뷰] CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis본 논문은 AI/ML 논문 내 인용 문맥에서 재현성(reproducibility) 지향 감성을 식별하기 위한 CC30k 데이터셋 을 구축하는 것을 목표로 합니다. 이는 계산적 재현성 연구를 위한 자원 부족 문제를 해결하고, 대규모 언어 모델(LLM)이 재현성 관련 감성을 효과적으로 예측하도록 훈련하는 기반을 마련합니다.#Review#Citation Contexts#Reproducibility#Sentiment Analysis#Large Language Models#Crowdsourcing#Dataset#Machine Learning#Science of Science2025년 11월 13일댓글 수 로딩 중
[논문리뷰] A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code본 논문은 기존의 LLM 코드 생성 평가 벤치마크가 단편적인 코드 스니펫 에 집중하고, 불안정한 평가 방식 을 사용하며, 실제 리포지토리 컨텍스트 를 반영하지 못하여 AI 생성 코드의 보안을 충분히 평가하지 못하는 문제를 해결하고자 합니다.#Review#AI-Generated Code Security#LLM Evaluation#Repository-Level Benchmark#Code Security#Vulnerability Detection#Static Analysis#Reproducibility#Context-Awareness2025년 9월 1일댓글 수 로딩 중
[논문리뷰] BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent현재 Deep-Research 에이전트 평가 벤치마크(예: BrowseComp)는 라이브 웹 검색 API 에 의존하여 공정성, 재현성 및 투명성 측면에서 중대한 한계를 가집니다.#Review#Benchmarking#Deep-Research Agents#LLMs#Retrieval#Curated Corpus#Evaluation#Fairness#Transparency#Reproducibility2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Gaperon: A Peppered English-French Generative Language Model Suite논문은 대규모 언어 모델 훈련의 투명성과 재현성을 높이기 위해 프랑스어-영어 이중 언어 생성형 언어 모델 스위트 GAPERON 을 공개합니다.#Review#Bilingual LLMs#Data Curation#Benchmark Contamination#Data Poisoning#Open Science#Reproducibility#Generative Models#French-English2025년 10월 30일댓글 수 로딩 중
[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.#Review#AI Agents#Benchmarking#Scientific Research#LLM Evaluation#Agentic AI#Tool Use#Reproducibility#Cost-Aware Evaluation2025년 10월 27일댓글 수 로딩 중