#Agent Safety

4개의 포스트

[논문리뷰] AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

본 논문은 현대 에이전트 시스템(예: OpenClaw)의 강력한 실행 능력으로 인해 기존 안전성 프레임워크가 대응하기 어려운 광범위한 위험 요소가 발생하고 있다는 문제의식에서 출발한다. 기존 연구들은 주로 단일 시점의 입력이나 출력만을 평가하여 궤적 전체에 누적되는 복합적인 위험 패턴을 탐지하는 데 한계가 있었다 .

#Review #Agent Safety #Alignment Framework #AgentDoG 1.5 #Trajectory-level Diagnosis #Reinforcement Learning #Online Guardrail

2026년 5월 28일

[논문리뷰] Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw

본 논문은 현대 개인용 AI 에이전트가 고도의 자동화와 개인화를 위해 사용하는 Persistent State 가 심각한 보안 취약점을 초래한다는 문제를 해결하고자 합니다.

#Review #Personal AI Agents #Persistent State #Security Analysis #CIK Taxonomy #Prompt Injection #Agent Safety #Evolution-Safety Tradeoff

2026년 4월 6일

[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.

#Review #Computer-Use Agents #Agent Safety #Benchmark #Harmful Behavior #Trajectory-level Evaluation #Multi-step Reasoning

2026년 4월 5일

[논문리뷰] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

본 연구는 복잡한 모바일 GUI 환경에서 자율 에이전트의 안전 문제 , 특히 시스템 침해 및 개인 정보 유출과 같은 예상치 못한 위험을 효과적으로 탐지하는 문제를 해결하고자 합니다. 기존의 안전 탐지 인프라와 전략이 미흡한 점을 개선하여, 모바일 에이전트 안전 연구의 체계적인 기반을 마련하는 것이 목표입니다.

#Review #Mobile GUI Agents #Agent Safety #Hybrid Detection #Formal Verification #VLM-based Contextual Judgment #Safety Benchmark #Risk Detection

2025년 11월 9일