[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.#Review#Computer-Use Agents#Agent Safety#Benchmark#Harmful Behavior#Trajectory-level Evaluation#Multi-step Reasoning2026년 4월 5일댓글 수 로딩 중