[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and SecurityAI 에이전트의 자율적인 도구 사용과 환경 상호작용으로 인해 발생하는 복잡한 안전 및 보안 문제를 해결하고자 합니다. 기존 가드레일 모델의 에이전트 리스크 인지 부족과 진단 투명성 부족이라는 한계를 극복하고, 복잡하고 다양한 위험 행동을 포괄하는 진단형 가드레일 프레임워크 AgentDoG 를 제시하는 것이 목표입니다.#Review#AI Agents#Safety Guardrails#Explainable AI (XAI)#Risk Taxonomy#Benchmarking#LLM Safety#Tool Use#Agent Alignment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.#Review#Multimodal LLMs#Jailbreak Attack#Attack-Defense Evaluation#Benchmark#Safety Alignment#Vulnerability Analysis#Risk Taxonomy#Evaluation Metrics2025년 12월 8일댓글 수 로딩 중