#Jailbreak Attack

2개의 포스트

[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.

#Review #Multimodal LLMs #Jailbreak Attack #Attack-Defense Evaluation #Benchmark #Safety Alignment #Vulnerability Analysis #Risk Taxonomy #Evaluation Metrics

2025년 12월 8일

[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.

#Review #Audio-Language Models #Jailbreak Attack #Adversarial Audio #Reinforcement Learning #Projected Gradient Descent #Native Payload Discovery #Multimodal AI Safety

2025년 8월 12일