#Factuality Verification

1개의 포스트

[논문리뷰] MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome

본 논문은 기존 deep research 시스템 평가가 실사용자의 복잡한 요구사항을 충분히 반영하지 못하는 한계점을 해결하기 위해 MiroEval 을 제안한다. 기존 연구들은 주로 정적인 과제를 사용하고 최종 보고서의 품질만을 평가하며, 연구 수행 과정(process)에 대한 감사가 결여되어 있다는 한계가 있다.

#Review #Deep Research #Multimodal Benchmark #Process-Centric Evaluation #Factuality Verification #Agentic Systems #Adaptive Synthesis

2026년 4월 1일