#Orthogonal Latent Encoding

1개의 포스트

[논문리뷰] Language-Switching Triggers Take a Latent Detour Through Language Models

본 연구는 대규모 언어 모델(LLM)에 삽입된 백도어(Backdoor)가 어떠한 내부 메커니즘을 통해 트리거를 처리하고 모델 출력을 가로채는지 규명하는 것을 목표로 합니다. 기존 연구들은 트리거를 일종의 불투명한 블랙박스로 처리하여 탐지 및 방어에 한계가 있었습니다.

#Review #Backdoor Attack #Circuit Interpretability #Activation Patching #Language-Switching #Orthogonal Latent Encoding #Residual Stream #Transformer

2026년 5월 19일