[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.#Review#Generative Research Synthesis#Live Benchmark#Automated Evaluation#LLM-as-a-judge#Related Work Generation#Retrieval-Augmented Generation#Verifiability2025년 8월 28일댓글 수 로딩 중