[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.#Review#Generative Research Synthesis#Live Benchmark#Automated Evaluation#LLM-as-a-judge#Related Work Generation#Retrieval-Augmented Generation#Verifiability2025년 8월 28일댓글 수 로딩 중
[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.#Review#LLM Agents#Future Prediction#Live Benchmark#Dynamic Evaluation#Data Contamination#Tool Use#Web Search#Financial Forecasting#Misinformation2025년 8월 21일댓글 수 로딩 중