[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.#Review#Multimodal LLMs#Jailbreak Attack#Attack-Defense Evaluation#Benchmark#Safety Alignment#Vulnerability Analysis#Risk Taxonomy#Evaluation Metrics2025년 12월 8일댓글 수 로딩 중
[논문리뷰] When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs본 연구는 오디오-언어 모델(ALM)이 악의적인 음성 입력에 의해 유해한 텍스트를 생성하도록 유도될 수 있는 취약점을 해결하고자 합니다.#Review#Audio-Language Models#Jailbreak Attack#Adversarial Audio#Reinforcement Learning#Projected Gradient Descent#Native Payload Discovery#Multimodal AI Safety2025년 8월 12일댓글 수 로딩 중