[논문리뷰] Interpreting and Steering a Text-to-Speech Language Model with Sparse Autoencoders본 연구는 TTS 언어 모델의 내부 동작이 '블랙박스'로 남아있어, 특정 음성 속성을 정교하게 제어하기 어렵다는 문제를 해결합니다. 기존의 음성 모델은 특정 스타일이나 화자 변환을 위해 전체 모델을 재학습하거나 프롬프트 엔지니어링에 의존해야 하며, 이는 제어의 정밀도와 효율성 측면에서 한계가 있습니다.#Review#Sparse Autoencoders#Text-to-Speech#Mechanistic Interpretability#Latent Space#Controllable Generation2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings본 논문은 LLM이 우수한 zero-shot 능력을 갖추고 있음에도 불구하고, 범용 text embedding 모델로 활용될 때는 성능이 저하되는 원인을 분석하고 해결하고자 한다.#Review#Large Language Model#Text Embedding#Mechanistic Interpretability#Unembedding Matrix#Dimensionality Reduction#Logit Lens#Edge Spectrum2026년 6월 7일댓글 수 로딩 중
[논문리뷰] The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models본 논문은 LLM이 고차원적인 추론에서는 뛰어난 성능을 보임에도 불구하고, 다중 자리수 덧셈과 같은 기초적인 산술 연산에서 발생하는 체계적인 오류(Off-by-one error)를 해결하고자 합니다.#Review#Mechanistic Interpretability#Large Language Models#Arithmetic Reasoning#Probing#Representation Geometry#Inference-time Intervention2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Measuring the Depth of LLM Unlearning via Activation Patching본 논문은 기존의 Output-level 메트릭이 모델 내부의 잔존 지식을 탐지하는 데 한계가 있다는 문제점을 제기합니다. 최근 연구들은 화이트박스 접근법을 통해 모델 내부의 지식 잔존을 확인하고 있으나, 데이터셋이나 보조 학습에 의존하여 범용적인 비교 지표가 부재한 상황입니다.#Review#LLM Unlearning#Activation Patching#Model Privacy#Mechanistic Interpretability#White-box Evaluation#Faithfulness#Robustness2026년 6월 1일댓글 수 로딩 중
[논문리뷰] The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages본 연구는 Chain-of-Thought(CoT) 모니터링이 다양한 언어 환경과 모델군에서 얼마나 신뢰할 수 있는가를 실증적으로 검증하기 위해 시작되었다.#Review#Chain-of-Thought#CoT Monitorability#Deception#Linguistic Distribution Shift#Mechanistic Interpretability#LLM Safety2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Guiding LLM Post-training Data Engineering with Model Internals from Sparse Autoencoders본 논문은 LLM post-training에서 데이터 엔지니어링이 모델 성능 향상의 핵심임에도 불구하고, 기존 방식들은 주로 외부 피드백(인간 선호도, 보상 모델, rollout 결과 등)에 의존하여 비용이 높고 효율성이 제한적이라는 문제에서 출발한다.#Review#Sparse Autoencoder#LLM Post-training#Reinforcement Learning#Data Engineering#Mechanistic Interpretability#Curriculum Learning#Data Selection2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Targeted Neuron Modulation via Contrastive Pair SearchLLM이 유해한 요청을 거부하도록 Instruction-tuning되지만, 이러한 Safety behavior의 Mechanistic basis는 여전히 불분명하다.#Review#Neuron Modulation#Contrastive Neuron Attribution#Refusal Mechanisms#Alignment Fine-tuning#Mechanistic Interpretability#Behavioral Steering#MLP Neurons2026년 5월 18일댓글 수 로딩 중
[논문리뷰] WriteSAE: Sparse Autoencoders for Recurrent State본 논문은 기존의 Residual SAE가 해결하지 못했던 state-space 및 hybrid recurrent language model의 matrix cache write 문제를 다룬다.#Review#Sparse Autoencoders#State-Space Models#Recurrent Neural Networks#Mechanistic Interpretability#Cache-Patching#WriteSAE2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Convergent Evolution: How Different Language Models Learn Similar Number Representations본 논문은 언어 모델이 일반 텍스트 학습만으로도 수(number)에 대한 주기적인 표현을 학습한다는 기존 연구들의 관찰에서 출발합니다.#Review#Language Models#Mechanistic Interpretability#Fourier Features#Convergent Evolution#Modular Arithmetic#Representation Learning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Structural Graph Probing of Vision-Language Models본 논문은 VLM의 복잡한 내부 연산 구조를 파악하기 위해, 기존의 국소적(local) 어트리뷰션 방식을 넘어선 population-level의 해석 가능성(interpretability) 프레임워크를 제안합니다.#Review#Vision-Language Models#Neural Topology#Mechanistic Interpretability#Neuron Correlation#Graph Neural Networks#Causal Intervention2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells를 식별합니다.#Review#Mechanistic Interpretability#LLM#Entity Cells#Factual Recall#Causal Intervention#MLP Neurons#Canonicalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering본 논문은 오디오-언어 모델(LALMs)에서 발생하는 텍스트 지배(text dominance) 문제를 해결하는 것을 목표로 합니다. 이는 LALMs가 중요한 오디오 증거가 있을 때에도 언어적 선험 지식에 과도하게 의존하여 오디오를 충분히 활용하지 못하는 현상을 의미합니다.#Review#Audio-Language Models (LALMs)#Text Dominance#Mechanistic Interpretability#Attention Heads#Activation Steering#Multimodal Grounding#Inference-time Intervention2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?본 논문은 Sparse Autoencoders (SAEs)가 신경망의 활성화를 해석 가능한 희소 특징으로 분해하는 데 있어 실제로 의미 있는 특징을 학습하는지 여부를 체계적으로 평가하는 것을 목표로 합니다.#Review#Sparse Autoencoders#Interpretability#Neural Network Internals#Evaluation Baselines#Feature Decomposition#LLMs#Mechanistic Interpretability2026년 2월 17일댓글 수 로딩 중
[논문리뷰] Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs본 논문은 RLVR(Reinforcement Learning with Verifiable Rewards) 로 튜닝된 LLM 이 때로는 불량한(spurious) 보상 에도 불구하고 성능 향상을 보이는 'Spurious Rewards Paradox' 현상을 기계론적으로 이해하는 것을 목표로 합니다.#Review#RLVR#LLMs#Mechanistic Interpretability#Memorization Shortcuts#Data Contamination#Anchor-Adapter Circuit#Path Patching#Logit Lens2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Reasoning Models Generate Societies of Thought본 논문은 대규모 언어 모델(LLM)의 정교한 추론 능력 이면에 있는 메커니즘을 규명하고, 이러한 능력이 단순히 계산량 증가가 아닌, 복잡한 다중 에이전트 상호작용 인 '생각의 사회(society of thought)'를 내재적으로 시뮬레이션함으로써 발현된다는 가설을 제시합니다.#Review#Reasoning Models#Large Language Models (LLMs)#Multi-Agent Systems#Society of Thought#Mechanistic Interpretability#Reinforcement Learning#Cognitive Diversity#Conversational AI2026년 1월 18일댓글 수 로딩 중
[논문리뷰] Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process대규모 언어 모델(LLM)의 복잡한 추론 과정 중 내부 메커니즘을 심층적으로 이해하고 조작하는 것을 목표로 합니다. 특히, 사람의 개입 없이 추론 행동을 표현하는 벡터 를 비지도 방식으로 발견 하여 기존의 제한적인 인간 정의 개념(예: 과도한 생각, 회고)을 넘어선 추론 행동을 식별하고 제어하고자 합니다.#Review#LLM Reasoning#Mechanistic Interpretability#Sparse Autoencoders (SAEs)#Activation Steering#Unsupervised Learning#Reasoning Behaviors#Chain-of-Thought#Feature Disentanglement2025년 12월 31일댓글 수 로딩 중
[논문리뷰] In-Context Representation Hijacking본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.#Review#LLM Jailbreak#In-Context Learning#Representation Hijacking#Mechanistic Interpretability#LLM Safety#Adversarial Attack#Semantic Shift2025년 12월 3일댓글 수 로딩 중
[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models본 연구는 대규모 언어 모델(LLMs)의 내재된 메커니즘을 탐구하여 LLM이 유추 추론을 수행하는 방식을 이해하는 것을 목표로 합니다. 특히, LLM이 관계형 개념을 추출하고 새로운 상황에 적용하며, 표면적 유사성을 넘어 구조적 정렬을 통해 병렬 관계를 어떻게 식별하는지 밝히고자 합니다.#Review#Analogical Reasoning#Large Language Models#Mechanistic Interpretability#Proportional Analogies#Story Analogies#Structural Alignment#Attention Knockout#Patchscopes2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection본 논문은 대규모 언어 모델(LLM)의 안전 정렬(safety alignment)이 특정 내부 표현 방향에 의해 매개되며 우회될 수 있다는 기존 연구를 바탕으로, 정반대로 안전 정렬을 강화하는 새로운 방법을 제안합니다.#Review#LLM Safety#Alignment Amplification#Rank-One Update#Mechanistic Interpretability#Weight Steering#Jailbreak Robustness#Fine-tuning-free#Safety Injection2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Beyond Transcription: Mechanistic Interpretability in ASR본 논문은 대규모 언어 모델(LLM)에서 성공적으로 적용된 메커니즘 해석 가능성(mechanistic interpretability) 기법 을 음성 인식(ASR) 분야에 적용하여, 현대 ASR 시스템 및 대규모 오디오-언어 모델(LALM)의 내부 동작 및 동적 특성을 이해하는 것을 목표로 합니다.#Review#ASR#Mechanistic Interpretability#Logit Lens#Linear Probing#Activation Patching#Hallucinations#Repetitions#Encoder-Decoder2025년 8월 28일댓글 수 로딩 중
[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.#Review#Sparse Autoencoders#LLM Steering#Feature Selection#Correlation Analysis#AI Safety#Bias Mitigation#Mechanistic Interpretability2025년 8월 20일댓글 수 로딩 중
[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.#Review#Bias Mitigation#LLMs#Mechanistic Interpretability#Fine-tuning#Attention Steering#Stereotype Analysis#Safety Alignment2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Large Language Models Do NOT Really Know What They Don't Know본 논문은 대규모 언어 모델(LLMs)이 사실적 오류를 생성할 때 내부적으로 어떻게 처리하는지 기계적으로 분석하여, LLMs가 진정으로 '무엇을 모르는지 아는지' 여부를 밝히는 것을 목표로 합니다.#Review#LLMs#Hallucination Detection#Mechanistic Interpretability#Internal States#Knowledge Recall#Refusal Tuning#Factual Associations#Associated Hallucinations2025년 10월 17일댓글 수 로딩 중
[논문리뷰] ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall대규모 언어 모델(LLMs)의 지식 편집(KE) 과정에서 다중 홉 사실 회상(multi-hop factual recall) 성능이 크게 저하되는 문제를 해결하고자 합니다.#Review#Knowledge Editing#LLMs#Multi-hop Reasoning#Mechanistic Interpretability#Neuron-level Attribution#Factual Recall#Transformer Networks2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Refusal Falls off a Cliff: How Safety Alignment Fails in Reasoning?본 논문은 대규모 추론 모델(LRMs)에서 안전 정렬(safety alignment) 이 실패하는 근본적인 메커니즘을 기계론적 해석 가능성(mechanistic interpretability) 관점에서 조사하는 것을 목표로 합니다.#Review#Safety Alignment#Large Reasoning Models#Mechanistic Interpretability#Refusal Cliff#Attention Heads#Data Selection#Linear Probing2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Mixing Mechanisms: How Language Models Retrieve Bound Entities In-Context기존 연구에서 언어 모델(LM)이 인-컨텍스트(in-context) 엔티티 바인딩(entity binding)을 주로 위치 메커니즘 으로 수행한다고 보았으나, 엔티티 수가 증가하는 복잡한 시나리오에서는 이 메커니즘이 중간 위치에서 불안정해지는 'lost-in-the-middle' 문제를 발견했습니다.#Review#Language Models#In-Context Learning#Entity Binding#Mechanistic Interpretability#Causal Abstraction#Long-Context Reasoning#Positional Encoding#Information Retrieval2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Distributional Semantics Tracing: A Framework for Explaining Hallucinations in Large Language Models본 논문은 대규모 언어 모델(LLM)의 환각 현상이 발생하는 내재적이고 아키텍처적 원인 을 규명하는 것을 목표로 합니다.#Review#LLM Hallucinations#Mechanistic Interpretability#Distributional Semantics Tracing (DST)#Dual-Process Theory#Semantic Drift#Commitment Layer#Faithfulness Score2025년 10월 8일댓글 수 로딩 중
[논문리뷰] OrtSAE: Orthogonal Sparse Autoencoders Uncover Atomic Features본 논문은 기존 Sparse Autoencoders (SAEs)가 겪는 피쳐 흡수(feature absorption) 및 피쳐 구성(feature composition) 문제를 해결하여, LLM 내부 활성화에서 추출되는 피쳐의 해석 가능성과 원자성을 높이는 것을 목표로 합니다.#Review#Sparse Autoencoders#Mechanistic Interpretability#Feature Disentanglement#Orthogonality#LLM Features#Feature Absorption#Feature Composition2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs본 논문은 Video Large Language Models ( VideoLLMs )가 비디오-텍스트 정보(spatiotemporal inputs)를 어떻게 내부적으로 추출하고 전파하여 비디오 질의응답 (VideoQA) 태스크에서 Temporal Reasoning을 수행하는지 그 메커니즘을 밝히는 것을 목표로 합니다.#Review#Video Large Language Models#VideoQA#Mechanistic Interpretability#Attention Knockout#Temporal Reasoning#Information Flow#Model Interpretability#Logit Lens2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Emergence of Linear Truth Encodings in Language Models언어 모델(LM)에서 참/거짓 진술을 선형적으로 구분하는 '진실 부공간'이 왜, 그리고 어떻게 출현하는지 그 기계론적 원리 를 밝히는 것이 주요 목표입니다. 이는 LM의 환각 현상(hallucinations) 완화 에 기여할 수 있는 근본적인 이해를 제공하고자 합니다.#Review#Language Models#Truth Encoding#Linear Subspaces#Mechanistic Interpretability#Transformer Models#Learning Dynamics#Truth Co-occurrence Hypothesis#Hallucinations2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Eliciting Secret Knowledge from Language Models이 논문은 AI 모델이 명시적으로 표현하지 않는 내재된 지식, 즉 '비밀 지식(secret knowledge)'을 발견하는 문제인 비밀 추출(secret elicitation) 을 다룹니다.#Review#Language Models#Secret Elicitation#Mechanistic Interpretability#Black-box Methods#White-box Methods#AI Auditing#Model Organisms#Prefill Attacks2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.#Review#Mechanistic Interpretability#Attention Heads#Post-Training#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis#Reasoning Models#Transformer Architecture2025년 10월 1일댓글 수 로딩 중