[논문리뷰] BraveGuard: From Open-World Threats to Safer Computer-Use Agents본 논문은 컴퓨터 사용 에이전트가 직면한 고유한 보안 취약점인 '다단계 실행 궤적의 불투명성' 문제를 해결하는 것을 목적으로 합니다.#Review#Computer-use Agents#Safety Guardrails#Trajectory-level Supervision#Open-world Threat Discovery#Self-evolving Defense#Agent Security2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use에이전트형 언어 모델(LLMs)의 다단계 도구 사용(multi-step tool use) 환경에서 발생하는 고유한 안전 문제를 해결하는 것이 목표입니다.#Review#Agentic LLM#AI Safety#Multi-Step Tool Use#Reinforcement Learning#Preference-Based Learning#Safety Guardrails#Refusal Mechanism#Structured Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and SecurityAI 에이전트의 자율적인 도구 사용과 환경 상호작용으로 인해 발생하는 복잡한 안전 및 보안 문제를 해결하고자 합니다. 기존 가드레일 모델의 에이전트 리스크 인지 부족과 진단 투명성 부족이라는 한계를 극복하고, 복잡하고 다양한 위험 행동을 포괄하는 진단형 가드레일 프레임워크 AgentDoG 를 제시하는 것이 목표입니다.#Review#AI Agents#Safety Guardrails#Explainable AI (XAI)#Risk Taxonomy#Benchmarking#LLM Safety#Tool Use#Agent Alignment2026년 1월 27일댓글 수 로딩 중