[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.#Review#LLM Unlearning#Activation Patching#Model Privacy#Mechanistic Interpretability#White-box Evaluation#Faithfulness#Robustness2026년 6월 1일댓글 수 로딩 중