[논문리뷰] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models

2026년 2월 12일수정: 2026년 2월 12일

링크: 논문 PDF로 바로 열기

저자: Jiacheng Hou, Yining Sun, Ruochong Jin, Haochen Han, Fangming Liu, Wai Kin Victor Chan, Alex Jinpeng Wang

핵심 연구 목표

본 논문은 대규모 이미지 편집 모델에서 시각적 프롬프트가 사용자 의도를 전달하는 새로운 패러다임이 도입되면서 발생하는 미탐지된 안전 위험 을 밝히고 해결하는 것을 목표로 합니다. 구체적으로, 순수하게 시각적 입력을 통해 악의적인 지시를 전달하는 Vision-Centric Jailbreak Attack (VJA) 을 제안하고, 이를 체계적으로 연구하기 위한 안전 벤치마크 IESBench 를 구축하며, 효과적인 방어 메커니즘을 개발하는 것을 목표로 합니다.

핵심 방법론

본 연구는 악의적인 편집 의도를 텍스트 지시 대신 시각적 입력(예: 마크, 화살표, 시각-텍스트 혼합 큐) 에 직접 삽입하는 VJA (Vision-Centric Jailbreak Attack) 패러다임을 제안합니다. 이러한 위협을 평가하기 위해, 15가지 위험 범주와 116가지 세분화된 편집 속성을 포함하는 IESBench 벤치마크를 도입했으며, 평가에는 Multimodal Large Language Models (MLLMs) 을 판정 모델로 활용합니다. 방어 전략으로는 이미지 편집 전에 "You are an image editing safety evaluator..." 와 같은 안전 트리거 텍스트 프롬프트 를 추가하여 모델의 내성적 다중모드 추론 을 활성화하는 훈련 없는(training-free) 방식 을 제안합니다.

주요 결과

VJA는 상업용 모델에서 높은 공격 성공률(ASR)을 보였습니다: Nano Banana Pro 에서 최대 80.9% , GPT-Image-1.5 에서 70.1% 를 달성했습니다. 오픈소스 모델인 Qwen-Image-Edit 및 Seedream 4.5 에서는 각각 97.5% 및 94.1% 의 훨씬 높은 ASR을 기록했습니다. 제안된 방어 기법은 Qwen-Image-Edit*에서 평균 ASR을 33% 감소시키고 Harmfulness Score(HS)를 1.2 낮추는 등 모델 안전성을 크게 향상시키는 정량적 지표를 보여주었습니다.

AI 실무자를 위한 시사점

본 연구는 대규모 이미지 편집 모델이 시각적 프롬프트 기반의 악의적인 공격 에 취약하다는 점을 명확히 드러내, 기존 텍스트 중심의 안전 메커니즘의 한계를 강조합니다. AI/ML 엔지니어는 이미지 편집 시스템 설계 및 배포 시 다중모드 공격 벡터 를 반드시 고려해야 하며, 단순히 텍스트 검열을 넘어선 시각적 추론 기반의 안전성 강화 가 필수적임을 시사합니다. 제안된 훈련 없는 방어 전략 은 추가적인 계산 오버헤드 없이 모델 안전성을 높일 수 있는 실용적인 방안을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Towards Autonomous Mathematics Research
현재글 : [논문리뷰] When the Prompt Becomes Visual: Vision-Centric Jailbreak Attacks for Large Image Editing Models
다음글 [논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning