#Backdoor Attack

3개의 포스트

[논문리뷰] Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

본 논문은 HuggingFace와 같은 공공 모델 허브에서 배포되는 LoRA 어댑터가 데이터 오염(Poisoning)을 통해 치명적인 백도어에 취약할 수 있다는 점을 지적합니다.

#Review #LoRA Adapter #Backdoor Attack #Data Poisoning #Behavioral Detection #Weight-Level Detection #LLM Security

2026년 5월 28일

[논문리뷰] Language-Switching Triggers Take a Latent Detour Through Language Models

본 연구는 대규모 언어 모델(LLM)에 삽입된 백도어(Backdoor)가 어떠한 내부 메커니즘을 통해 트리거를 처리하고 모델 출력을 가로채는지 규명하는 것을 목표로 합니다. 기존 연구들은 트리거를 일종의 불투명한 블랙박스로 처리하여 탐지 및 방어에 한계가 있었습니다.

#Review #Backdoor Attack #Circuit Interpretability #Activation Patching #Language-Switching #Orthogonal Latent Encoding #Residual Stream #Transformer

2026년 5월 19일

[논문리뷰] IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding

이 연구는 시각적 그라운딩(Visual Grounding) 태스크를 수행하는 Vision-Language Models (VLMs) 에 대한 새로운 입력 인지(Input-aware) 백도어 공격(Backdoor Attack) 시나리오와 방법론인 IAG 를 제시합니다.

#Review #Backdoor Attack #Vision-Language Models (VLMs)#Visual Grounding #Input-aware Trigger #Adversarial Attack #Security #U-Net #Open-vocabulary

2025년 8월 14일