[논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?본 논문은 실제 웹사이트에서 안전하게 에이전트를 평가하기 위해 5계층 기록 인프라와 최종 요청 인터셉션 메커니즘을 결합한 ClawBench를 제안한다 . 이 프레임워크는 인간 전문가가 수행한 경로를 Ground-truth로 삼고, 에이전트가 수행한 전체 경로를 동일한 환경에서 기록한 뒤 Agentic Evaluator를 통해 비교 평가한다 .#Review#AI Agents#Web Benchmarking#Write-heavy Tasks#Real-world Interaction#Agentic Evaluator#Trajectory Recording2026년 4월 9일댓글 수 로딩 중