[논문리뷰] Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?본 논문은 Sparse Autoencoders (SAEs)가 신경망의 활성화를 해석 가능한 희소 특징으로 분해하는 데 있어 실제로 의미 있는 특징을 학습하는지 여부를 체계적으로 평가하는 것을 목표로 합니다.#Review#Sparse Autoencoders#Interpretability#Neural Network Internals#Evaluation Baselines#Feature Decomposition#LLMs#Mechanistic Interpretability2026년 2월 17일댓글 수 로딩 중