[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.#Review#Deep Research Agents#LLM Evaluation#Academic Survey#Factual Accuracy#Citation Verification#Report Generation#Benchmark#Hallucination2025년 8월 27일댓글 수 로딩 중