#Trajectory-level Evaluation

1개의 포스트

[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.

#Review #Computer-Use Agents #Agent Safety #Benchmark #Harmful Behavior #Trajectory-level Evaluation #Multi-step Reasoning

2026년 4월 5일