[논문리뷰] Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories본 연구는 Deep-Research Agent의 오류 원인을 파악하기 어렵다는 블랙박스 특성을 해결하고자 합니다. 기존의 에이전트 평가는 주로 최종 결과물(Final Answer)의 정확도에만 집중하기 때문에, 중간 단계의 어떤 부분에서 추론이 어긋났는지 진단하는 데 한계가 존재합니다.#Review#Deep-Research Agents#Error Localization#Agent Trajectories#Span-Level Analysis#LLM Reasoning#Debugging2026년 6월 3일댓글 수 로딩 중