[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.#Review#Deep Research Agents#LLM Evaluation#Benchmark#Rubrics#Multi-step Reasoning#Cross-document Synthesis#AI Performance#Task Complexity2025년 11월 13일댓글 수 로딩 중