[논문리뷰] AudioSAE: Towards Understanding of Audio-Processing Models with Sparse AutoEncoders이 논문은 오디오 처리 모델, 특히 Whisper 와 HuBERT 의 복잡한 내부 표현을 Sparse AutoEncoders (SAEs) 를 통해 이해하고 해석하는 것을 목표로 합니다.#Review#Sparse Autoencoders (SAEs)#Audio Representation Learning#Model Interpretability#Whisper#HuBERT#Feature Steering#EEG Correlation#Audio Analysis2026년 2월 8일댓글 수 로딩 중
[논문리뷰] YaPO: Learnable Sparse Activation Steering Vectors for Domain Adaptation본 논문은 LLM의 행동을 미세하게 제어하는 데 있어 기존의 Dense Steering Vector 방식이 지닌 Latent Factor 얽힘(Entanglement) 문제와 불안정성을 해결하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Activation Steering#Sparse Autoencoders (SAEs)#Domain Adaptation#Cultural Alignment#Preference Optimization#Disentangled Representations#Fine-grained Control2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process대규모 언어 모델(LLM)의 복잡한 추론 과정 중 내부 메커니즘을 심층적으로 이해하고 조작하는 것을 목표로 합니다. 특히, 사람의 개입 없이 추론 행동을 표현하는 벡터 를 비지도 방식으로 발견 하여 기존의 제한적인 인간 정의 개념(예: 과도한 생각, 회고)을 넘어선 추론 행동을 식별하고 제어하고자 합니다.#Review#LLM Reasoning#Mechanistic Interpretability#Sparse Autoencoders (SAEs)#Activation Steering#Unsupervised Learning#Reasoning Behaviors#Chain-of-Thought#Feature Disentanglement2025년 12월 31일댓글 수 로딩 중
[논문리뷰] CRISP: Persistent Concept Unlearning via Sparse Autoencoders본 논문은 대규모 언어 모델(LLMs)에서 불필요하거나 유해한 지식을 영구적으로 제거(Persistent Concept Unlearning) 하면서도 모델의 일반적인 유용성과 생성 품질을 유지하는 것을 목표로 합니다.#Review#Concept Unlearning#Sparse Autoencoders (SAEs)#LLMs#Parameter-Efficient Fine-Tuning#Model Interpretability#Safety-Critical AI#Feature Suppression#WMDP Benchmark2025년 8월 25일댓글 수 로딩 중