#Activation Patching

3개의 포스트

[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching

본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.

#Review #LLM Unlearning #Activation Patching #Model Privacy #Mechanistic Interpretability #White-box Evaluation #Faithfulness #Robustness

2026년 6월 1일

[논문리뷰] Language-Switching Triggers Take a Latent Detour Through Language Models

본 연구는 대규모 언어 모델(LLM)에 삽입된 백도어(Backdoor)가 어떠한 내부 메커니즘을 통해 트리거를 처리하고 모델 출력을 가로채는지 규명하는 것을 목표로 합니다. 기존 연구들은 트리거를 일종의 불투명한 블랙박스로 처리하여 탐지 및 방어에 한계가 있었습니다.

#Review #Backdoor Attack #Circuit Interpretability #Activation Patching #Language-Switching #Orthogonal Latent Encoding #Residual Stream #Transformer

2026년 5월 19일

[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR

본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.

#Review #ASR #Mechanistic Interpretability #Logit Lens #Linear Probing #Activation Patching #Hallucinations #Repetitions #Encoder-Decoder

2025년 8월 28일