[논문리뷰] Steered LLM Activations are Non-Surjective
링크: 논문 PDF로 바로 열기
메타데이터
저자: Aayush Mishra, Daniel Khashabi, Anqi Liu
1. Key Terms & Definitions (핵심 용어 및 정의)
- Activation Steering: 모델의 중간 계층(주로 residual stream)에 학습된 벡터를 더해 모델의 행동을 제어하는 화이트박스 개입 기법입니다.
- Surjectivity (전사성): 본 논문에서 핵심적으로 다루는 개념으로, steer된 활성화 상태가 자연스러운 텍스트 프롬프트로부터 유도될 수 있는(즉, 특정 프롬프트를 입력했을 때 동일한 활성화 값이 나오는) 프롬프트(preimage)를 가지는지 여부를 의미합니다.
- SipIt: LLM의 자연스러운 활성화 값을 역추적하여 이를 생성한 원본 프롬프트를 찾는 알고리즘입니다.
- Residual Stream: Transformer 모델의 각 계층을 통과하며 정보가 누적되는 내부 표현 공간입니다.
- Prompt-Reachability: 모델의 내부 활성화 상태가 블랙박스 환경에서 텍스트 프롬프트 입력만으로 도달 가능한지 여부를 지칭합니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 연구는 Activation Steering이 유도하는 모델의 내부 행동 변화가 실제 텍스트 프롬프트를 통해서도 동일하게 구현 가능한지라는 근본적인 의문을 해결하고자 합니다. 기존 연구들은 Activation Steering의 높은 제어 능력을 근거로 이를 모델의 취약점이나 해석 가능성을 평가하는 지표로 활용해왔으나, 이러한 내부 개입과 블랙박스 환경에서의 텍스트 기반 개입 사이의 상관관계는 명확히 증명되지 않았습니다. 저자들은 이 문제를 수학적인 surjectivity 문제로 정형화하여, steering을 통해 강제로 생성된 활성화 상태가 사실상 프롬프트로 도달할 수 없는 '활성화 공간의 구멍(holes)'에 위치함을 입증합니다 [Figure 1].
3. Method & Key Results (제안 방법론 및 핵심 결과)
저자들은 Transformer 모델이 real-analytic 함수라는 점을 활용하여, 무작위 혹은 특정 방식으로 추출된 steering vector가 모델의 residual stream을 프롬프트로 도달 가능한 활성화 다형체(manifold) 밖으로 이동시킨다는 이론적 결과를 도출했습니다. 실험적 검증을 위해 Llama-3.2-1B-Instruct, Qwen-2.5-0.5B-Instruct, gemma-3-1b-it 등 3종의 모델을 대상으로 SipIt 역추적 및 ICL(In-Context Learning)을 통한 활성화 정렬 실험을 수행하였습니다 [Figure 3].
주요 결과는 다음과 같습니다:
- SipIt을 통한 역추적 실험 결과, steering된 활성화 상태에 대응하는 어떠한 자연스러운 텍스트 프롬프트도 존재하지 않음을 확인하였습니다 [Table 1].
- Many-shot ICL 실험에서 프롬프트의 길이를 늘려 steering된 활성화 상태와 유사한 지점에 도달하고자 시도했으나, 오히려 steering된 활성화와 자연스러운 활성화 사이의 L2 distance가 커지는 현상을 관찰하였습니다 [Figure 5].
- 이러한 결과는 화이트박스 제어 방식(steering)과 블랙박스 제어 방식(prompting)이 사용하는 내부 기전이 근본적으로 다름을 시사합니다 [Figure 4].
4. Conclusion & Impact (결론 및 시사점)
본 논문은 Activation Steering이 모델의 행동을 제어하는 강력한 도구임에도 불구하고, steering으로 유도된 내부 상태가 반드시 프롬프트로 재현 가능하다는 주장에 이론적·실험적 반례를 제시합니다. 이 연구는 모델의 안전성 평가 및 해석 가능성 연구에서 화이트박스 개입과 블랙박스 프롬프트 개입을 엄격히 구분해야 함을 강조합니다. 향후 AI 안전성 평가 프로토콜을 설계할 때, steering 성공 사례를 블랙박스 환경에서의 실질적인 취약점으로 직접 연결하는 것을 경계해야 하며, 두 개입 방식을 독립적으로 평가하는 지침이 필요합니다.
Part 2: 중요 Figure 정보

Figure 1 — steering의 비전사성

Figure 3 — 전사성 검증 실험 구성

Figure 5 — ICL 거리 측정 결과
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics
- [논문리뷰] Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks
- [논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models
- [논문리뷰] Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models
- [논문리뷰] The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness
Review 의 다른글
- 이전글 [논문리뷰] Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models
- 현재글 : [논문리뷰] Steered LLM Activations are Non-Surjective
- 다음글 [논문리뷰] Unlocking Dense Metric Depth Estimation in VLMs
댓글