[논문리뷰] Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification본 논문은 Deep Research Agents (DRAs)의 신뢰할 수 없는 출력(예: 환각, 오류) 문제를 해결하고, 특히 추론 시점(inference time) 에 에이전트의 성능을 향상시키는 것을 목표로 합니다.#Review#Deep Research Agents#Inference-Time Verification#Self-Evolving LLM Agents#Rubric-Guided Feedback#Failure Taxonomy#Test-Time Scaling#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.#Review#Deep Research Agents#Evaluation Benchmark#Failure Taxonomy#Report Generation#Information Retrieval#Reasoning Resilience#Content Fabrication#AI Agents2025년 12월 1일댓글 수 로딩 중