#Safety Benchmark

4개의 포스트

[논문리뷰] SafePyramid: A Hierarchical Benchmark for In-context Policy Guardrailing

본 논문은 기존의 고정된 위험 분류 체계에 의존하는 Guardrail이 실제 애플리케이션의 가변적인 요구사항을 충족하지 못하는 문제를 해결하고자 합니다 .

#Review #In-context Policy Guardrailing #Safety Benchmark #Hierarchical Evaluation #LLM Safety #Rule Dependency #Policy Framework

2026년 6월 29일

[논문리뷰] SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning

기존의 다중 모달 가드레일 모델들은 대부분 고정된 분류 체계(Static Taxonomy)에 의존하며, 배포 환경이나 정책 변화에 따라 유연하게 대응하지 못하는 한계가 있습니다. 특히 고정된 레이블을 사용하는 기존 모델은 미학습된 규칙이나 새로운 정책 상황에서 성능이 급격히 저하되는 문제가 발생합니다.

#Review #Multimodal LLM #Guardrail #Policy-Adaptive #Dynamic Reasoning #Fast-Slow Decoupled RL #Safety Benchmark

2026년 6월 28일

[논문리뷰] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

본 논문은 대규모 이미지 편집 모델에서 시각적 프롬프트가 사용자 의도를 전달하는 새로운 패러다임이 도입되면서 발생하는 미탐지된 안전 위험 을 밝히고 해결하는 것을 목표로 합니다.

#Review #Vision-Centric Jailbreak Attack #Image Editing Models #Safety Benchmark #IESBench #Multimodal Reasoning #Adversarial Attack #Defense Mechanism

2026년 2월 11일

[논문리뷰] OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows

본 연구는 복잡한 모바일 GUI 환경에서 자율 에이전트의 안전 문제 , 특히 시스템 침해 및 개인 정보 유출과 같은 예상치 못한 위험을 효과적으로 탐지하는 문제를 해결하고자 합니다. 기존의 안전 탐지 인프라와 전략이 미흡한 점을 개선하여, 모바일 에이전트 안전 연구의 체계적인 기반을 마련하는 것이 목표입니다.

#Review #Mobile GUI Agents #Agent Safety #Hybrid Detection #Formal Verification #VLM-based Contextual Judgment #Safety Benchmark #Risk Detection

2025년 11월 9일