#Inference-time Intervention

3개의 포스트

[논문리뷰] The Shape of Addition: Geometric Structures of Arithmetic in Large Language Models

본 논문은 LLM이 고차원적인 추론에서는 뛰어난 성능을 보임에도 불구하고, 다중 자리수 덧셈과 같은 기초적인 산술 연산에서 발생하는 체계적인 오류(Off-by-one error)를 해결하고자 합니다.

#Review #Mechanistic Interpretability #Large Language Models #Arithmetic Reasoning #Probing #Representation Geometry #Inference-time Intervention

2026년 6월 4일

[논문리뷰] Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

본 논문은 오디오-언어 모델(LALMs)에서 발생하는 텍스트 지배(text dominance) 문제를 해결하는 것을 목표로 합니다. 이는 LALMs가 중요한 오디오 증거가 있을 때에도 언어적 선험 지식에 과도하게 의존하여 오디오를 충분히 활용하지 못하는 현상을 의미합니다.

#Review #Audio-Language Models (LALMs)#Text Dominance #Mechanistic Interpretability #Attention Heads #Activation Steering #Multimodal Grounding #Inference-time Intervention

2026년 3월 10일

[논문리뷰] Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection

대규모 언어 모델(LLM)이 정렬 노력에도 불구하고 여전히 유해한 행동에 취약하며, 기존 액티베이션 스티어링(Activation Steering) 기법들이 norm 보존 실패 로 인한 생성 붕괴, 세심한 계수 튜닝, 또는 이진 제어 등의 한계를 가진다는 문제점을 해결하고자 합니다.

#Review #Activation Steering #Large Language Models (LLMs)#Norm Preservation #Discriminative Layer Selection #Behavior Control #Inference-time Intervention #Angular Steering

2026년 1월 27일