#Web Benchmarking

1개의 포스트

[논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?

본 논문은 실제 웹사이트에서 안전하게 에이전트를 평가하기 위해 5계층 기록 인프라와 최종 요청 인터셉션 메커니즘을 결합한 ClawBench를 제안한다 . 이 프레임워크는 인간 전문가가 수행한 경로를 Ground-truth로 삼고, 에이전트가 수행한 전체 경로를 동일한 환경에서 기록한 뒤 Agentic Evaluator를 통해 비교 평가한다 .

#Review #AI Agents #Web Benchmarking #Write-heavy Tasks #Real-world Interaction #Agentic Evaluator #Trajectory Recording

2026년 4월 9일