#Alignment Framework

1개의 포스트

[논문리뷰] AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

본 논문은 현대 에이전트 시스템(예: OpenClaw)의 강력한 실행 능력으로 인해 기존 안전성 프레임워크가 대응하기 어려운 광범위한 위험 요소가 발생하고 있다는 문제의식에서 출발한다. 기존 연구들은 주로 단일 시점의 입력이나 출력만을 평가하여 궤적 전체에 누적되는 복합적인 위험 패턴을 탐지하는 데 한계가 있었다 .

#Review #Agent Safety #Alignment Framework #AgentDoG 1.5 #Trajectory-level Diagnosis #Reinforcement Learning #Online Guardrail

2026년 5월 28일