[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.#Review#LLM Unlearning#Activation Patching#Model Privacy#Mechanistic Interpretability#White-box Evaluation#Faithfulness#Robustness2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?본 연구는 GRPO 기반의 on-policy unlearning과 cold start 단계를 결합하여 타겟 알고리즘 지식을 모델에서 제거합니다. 재발명 단계에서는 Python interpreter와 상호작용하며, 실패 시 Generative Verifier가 제공하는 진단 피드백을 통해 솔루션을 수정합니다.#Review#Large Language Models#LLM Unlearning#Algorithmic Invention#GRPO#Test-time Reinforcement Learning2026년 4월 19일댓글 수 로딩 중