[논문리뷰] Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories본 연구는 Deep-Research Agent의 오류 원인을 파악하기 어렵다는 블랙박스 특성을 해결하고자 합니다. 기존의 에이전트 평가는 주로 최종 결과물(Final Answer)의 정확도에만 집중하기 때문에, 중간 단계의 어떤 부분에서 추론이 어긋났는지 진단하는 데 한계가 존재합니다.#Review#Deep-Research Agents#Error Localization#Agent Trajectories#Span-Level Analysis#LLM Reasoning#Debugging2026년 6월 3일댓글 수 로딩 중
[논문리뷰] BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent현재 Deep-Research 에이전트 평가 벤치마크(예: BrowseComp)는 라이브 웹 검색 API 에 의존하여 공정성, 재현성 및 투명성 측면에서 중대한 한계를 가집니다.#Review#Benchmarking#Deep-Research Agents#LLMs#Retrieval#Curated Corpus#Evaluation#Fairness#Transparency#Reproducibility2025년 8월 12일댓글 수 로딩 중