#Black-box Transfer

1개의 포스트

[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

본 논문은 기존의 오분류나 탈옥(jailbreak) 공격과 달리, 멀티모달 대규모 언어 모델(MLLMs)이 일관성 없거나 자신감 있게 틀린 출력을 생성하도록 유도하여 시스템적인 혼란(confusion)을 야기하는 새로운 유형의 적대적 공격인 Adversarial Confusion Attack 을 제안합니다.

#Review #Adversarial Attack #Multimodal Large Language Models (MLLMs)#Entropy Maximization #Confusion Attack #Black-box Transfer #PGD #AI Agent Safety

2025년 12월 3일