[논문리뷰] Language-Switching Triggers Take a Latent Detour Through Language Models본 연구는 대규모 언어 모델(LLM)에 삽입된 백도어(Backdoor)가 어떠한 내부 메커니즘을 통해 트리거를 처리하고 모델 출력을 가로채는지 규명하는 것을 목표로 합니다. 기존 연구들은 트리거를 일종의 불투명한 블랙박스로 처리하여 탐지 및 방어에 한계가 있었습니다.#Review#Backdoor Attack#Circuit Interpretability#Activation Patching#Language-Switching#Orthogonal Latent Encoding#Residual Stream#Transformer2026년 5월 19일댓글 수 로딩 중