#Reasoning Resilience

1개의 포스트

[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?

본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.

#Review #Deep Research Agents #Evaluation Benchmark #Failure Taxonomy #Report Generation #Information Retrieval #Reasoning Resilience #Content Fabrication #AI Agents

2025년 12월 1일