[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language Models본 논문은 기존의 오분류나 탈옥(jailbreak) 공격과 달리, 멀티모달 대규모 언어 모델(MLLMs)이 일관성 없거나 자신감 있게 틀린 출력을 생성하도록 유도하여 시스템적인 혼란(confusion)을 야기하는 새로운 유형의 적대적 공격인 Adversarial Confusion Attack 을 제안합니다.#Review#Adversarial Attack#Multimodal Large Language Models (MLLMs)#Entropy Maximization#Confusion Attack#Black-box Transfer#PGD#AI Agent Safety2025년 12월 3일댓글 수 로딩 중