[논문리뷰] SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior본 논문은 SAE를 이용한 잠재 공간(latent-space) 방어 기법들이 행동을 완전히 통제하지 못할 수 있다는 한계점을 지적합니다.#Review#Sparse Autoencoders#Intervention#Post-Intervention Recovery#Constrained Optimization#Interpretability#Safety#Residual Stream2026년 6월 17일댓글 수 로딩 중