[논문리뷰] GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs

2025년 12월 30일수정: 2025년 12월 30일

링크: 논문 PDF로 바로 열기

저자: Lichao Wu, Sasha Behrouzi, Mohamadreza Rostami, Stjepan Picek, Ahmad-Reza Sadeghi

핵심 연구 목표

본 논문은 Mixture-of-Experts (MoE) LLM 의 고유한 안전 특성과 취약점이 기존 Dense LLM 에 비해 충분히 연구되지 않았다는 문제의식을 제기합니다. 특히, MoE 모델의 모듈화된 희소 활성화 설계가 안전 메커니즘을 다르게 작동시킬 수 있으며, 이를 악용하여 MoE LLM 의 안전 정렬을 우회할 수 있는 훈련-없는(training-free), 경량의(lightweight), 아키텍처-불가지론적인(architecture-agnostic) 공격 프레임워크 인 GateBreaker 를 개발하는 것을 목표로 합니다.

핵심 방법론

GateBreaker 는 세 단계로 구성됩니다: 첫째, 게이트 수준 프로파일링(gate-level profiling) 을 통해 유해한 입력에 비례적으로 더 많이 라우팅되는 안전 전문가(safety experts) 를 식별합니다. 둘째, 전문가 수준 지역화(expert-level localization) 를 수행하여 식별된 안전 전문가 내에서 안전 정렬과 관련된 안전 뉴런(safety neurons) 을 찾아냅니다. 셋째, 표적 안전 제거(targeted safety removal) 단계에서 식별된 안전 뉴런의 활성화를 0으로 클램핑(clamp to zero) 하여 안전 정렬을 비활성화하며, 이는 모델의 전반적인 유틸리티에는 영향을 미치지 않도록 설계되었습니다.

주요 결과

GateBreaker 는 8개의 최신 정렬된 MoE LLM 에 대해 평균 공격 성공률(ASR)을 7.4%에서 64.9%로 크게 증가시켰으며, 표적 레이어당 수정된 뉴런은 2.9% 미만 이었습니다. 특히, 원샷 전이 공격(one-shot transfer attack) 에서는 ASR이 17.9%에서 67.7%로 상승하여 모델 간 전이 가능성을 입증했습니다. 또한, 5개의 MoE VLM (Vision Language Models) 에서도 유해한 이미지 입력에 대한 ASR을 20.8%에서 60.9% 로 높여 일반화 능력을 보였습니다.

AI 실무자를 위한 시사점

본 연구는 MoE LLM 의 안전 정렬이 모델 내부의 특정 뉴런의 작은 부분집합 에 집중되어 있으며, 이는 게이트 메커니즘 에 의해 조정된다는 중요한 구조적 취약점을 밝혀냈습니다. 이는 MoE 기반 시스템 의 보안 강화 시 안전 뉴런의 분산 배치 또는 훈련 과정에서의 안전 제약 통합 등 새로운 방어 전략이 필요함을 시사합니다. 또한, GateBreaker 의 경량화된 추론 시간 공격 방식은 블랙박스 공격 에 대한 통찰을 제공하며, 내부 활성화 모니터링과 같은 실용적인 방어책 마련의 중요성을 강조합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Evaluating Parameter Efficient Methods for RLVR
현재글 : [논문리뷰] GateBreaker: Gate-Guided Attacks on Mixture-of-Expert LLMs
다음글 [논문리뷰] GraphLocator: Graph-guided Causal Reasoning for Issue Localization