[논문리뷰] ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence본 논문은 자율 연구 에이전트가 생성한 결과물에서 발견되는 심각한 신뢰성 결여 문제를 해결하고자 한다. 기존 에이전트 시스템은 전문적인 논문과 경쟁력 있는 솔루션을 생성하지만, 인용 조작, 검증 불가능한 점수 보고, 코드 구현과 논문 서술 간의 불일치 등 표면적인 완성도에만 치중한 오류들을 반복적으로 보이고 있다.#Review#Autonomous Research#Chain-of-Evidence#Verifiability#Provenance#Integrity Audit#LLM2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.#Review#Deep Research Agents#LLM Evaluation#Wikipedia#Good Articles#Factuality#Writing Quality#Benchmark#Hallucinations#Verifiability2026년 2월 2일댓글 수 로딩 중
[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.#Review#Generative Research Synthesis#Live Benchmark#Automated Evaluation#LLM-as-a-judge#Related Work Generation#Retrieval-Augmented Generation#Verifiability2025년 8월 28일댓글 수 로딩 중