#Skill Diagnosis

1개의 포스트

[논문리뷰] Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

본 논문은 웹 에이전트 평가의 핵심 문제인 '최종 성공 여부(Terminal Success)에만 의존하는 방식'이 에이전트의 실패 원인을 규명하는 데 한계가 있다는 점을 지적한다. 기존의 결과 중심 평가는 긴 상호작용 과정에서 발생하는 질적으로 다른 실패 모드들을 하나로 압축하여, 구체적인 개선 방향을 제시하지 못한다 .

#Review #Web Agent #Process-Level Evaluation #Semantic MDP #Benchmark #Skill Diagnosis #Trajectory Analysis

2026년 6월 15일