#Live Benchmark

2개의 포스트

[논문리뷰] DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

본 연구는 기존 질의응답 벤치마크나 수동 큐레이션 데이터셋의 한계를 극복하고, 생성형 연구 합성(Generative Research Synthesis) 시스템의 성능을 효과적으로 평가하기 위한 라이브 벤치마크 와 자동화된 평가 프레임워크 인 DeepScholar-Bench 를 제안합니다.

#Review #Generative Research Synthesis #Live Benchmark #Automated Evaluation #LLM-as-a-judge #Related Work Generation #Retrieval-Augmented Generation #Verifiability

2025년 8월 28일

[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.

#Review #LLM Agents #Future Prediction #Live Benchmark #Dynamic Evaluation #Data Contamination #Tool Use #Web Search #Financial Forecasting #Misinformation

2025년 8월 21일