#LLM Unlearning

2개의 포스트

[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching

본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.

#Review #LLM Unlearning #Activation Patching #Model Privacy #Mechanistic Interpretability #White-box Evaluation #Faithfulness #Robustness

2026년 6월 1일

[논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?

본 연구는 GRPO 기반의 on-policy unlearning과 cold start 단계를 결합하여 타겟 알고리즘 지식을 모델에서 제거합니다. 재발명 단계에서는 Python interpreter와 상호작용하며, 실패 시 Generative Verifier가 제공하는 진단 피드백을 통해 솔루션을 수정합니다.

#Review #Large Language Models #LLM Unlearning #Algorithmic Invention #GRPO #Test-time Reinforcement Learning

2026년 4월 19일