[논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models

2026년 4월 2일수정: 2026년 4월 2일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Itay Yona, Dan Barzilay, Michael Karasik, Mor Geva

1. Key Terms & Definitions (핵심 용어 및 정의)

Entity Cells : 특정 개체(Entity)와 관련된 정보를 선택적으로 처리하며, factual retrieval 과정에서 안정적인 앵커(Anchor) 역할을 수행하는 MLP 뉴런을 지칭합니다.
Entity Representation : 특정 개체에 대한 의미적 정보를 담고 있는 모델 내부의 hidden-state 패턴 또는 MLP 블록이 residual stream에 기록하는 출력 벡터를 의미합니다.
Negative Ablation : 특정 뉴런의 활성값을 음수 값으로 스케일링하여 해당 뉴런이 담당하는 기능적 역할을 억제함으로써, 인과적 필연성을 검증하는 기법입니다.
Controlled Injection : 특정 뉴런의 활성값을 특정 개체에 대한 값으로 강제 주입하여, 해당 뉴런이 모델의 출력을 특정 방향으로 유도할 수 있는지 확인하는 인과적 충분성 검증 기법입니다.
Trustworthiness Filter : 모델의 일반적인 언어 생성 능력을 해치지 않으면서 특정 개체에 대한 회상(Recall) 능력만을 선택적으로 저하시키는 뉴런을 선별하는 기준입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM이 factual knowledge를 처리할 때 개체(Entity) 중심의 지식을 내부적으로 어떻게 저장하고 접근하는지에 대한 메커니즘을 규명하고자 합니다. 기존 연구들은 MLP 블록이 key-value memory 역할을 수행한다고 제시했으나, inference 시점에 모델이 어떻게 개체 의미를 형성하고 이를 통해 factual access를 수행하는지에 대한 정확한 경로는 불투명했습니다. 저자들은 개체 처리 정보가 모델의 깊은 층을 거치며 점진적으로 형성되는지, 아니면 특정 지점에서의 localized access를 통해 이루어지는지를 검증하기 위해 본 연구를 수행했습니다. 특히, 개별 뉴런이 특정 개념의 functional unit으로 작동할 수 있다는 'Grandmother cell' 가설을 LLM 환경에서 실험적으로 테스트합니다 [Figure 1].

Figure 1: Entity cell 개념 개요

Figure 1 — Entity cell 개념 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 templated prompts를 사용하여 특정 개체에 반응하는 뉴런을 추출하고, 이를 인과적 개입(Causal Intervention)을 통해 검증하는 파이프라인을 제안합니다. 먼저, 여러 프롬프트에서 안정적으로 활성화되는 뉴런을 순위화하여 Entity Cells 를 식별합니다. 실험 결과, Qwen2.5-7B 모델을 포함한 다양한 모델에서 개체 관련 정보가 모델의 초기 층(Layer 0-5)에 집중되어 있음이 확인되었습니다 [Figure 2]. Negative Ablation 을 적용한 결과, 선별된 Entity Cells 를 억제했을 때 해당 개체에 대한 factual recall이 선택적으로 차단되는 'Entity-specific amnesia' 현상이 관찰되었습니다 [Figure 3]. 또한, Controlled Injection 실험에서 단일 뉴런의 활성화만으로도 placeholder 토큰 위치에서 개체와 일치하는 factual recall을 63.3% pass@5 의 정확도로 복구할 수 있음을 입증했습니다 [Figure 4]. 마지막으로, 이러한 뉴런들이 다양한 alias, 약어, 오타, 다국어 형식에도 동일하게 반응한다는 점을 통해, 이들이 표면적 토큰이 아닌 개체의 Canonical identity를 처리함을 확인했습니다.

Figure 2: Entity cell의 층별 분포

Figure 2 — Entity cell의 층별 분포

Figure 3: Negative ablation 결과

Figure 3 — Negative ablation 결과

4. Conclusion & Impact (결론 및 시사점)

본 연구는 LLM 내부에 개체 중심의 정보를 저장하고 접근하는 'Latent entity vocabulary'로서의 Entity Cells 가 실존하며, 이것이 sparse하고 causally actionable한 접근 지점임을 성공적으로 규명했습니다. 연구 결과는 학계의 mechanistic interpretability 분야에서 개별 뉴런의 기능적 의미를 파악하는 데 중요한 통찰을 제공합니다. 또한, 모델 편집(Model Editing)이나 사실 기반 제어(Factual Steering) 기술을 개발함에 있어, 전체 가중치를 변경하는 대신 특정 Entity Cells 를 조절함으로써 효율적인 모델 제어가 가능하다는 산업적 시사점을 제공합니다. 다만, 이러한 현상이 모델 아키텍처와 사전 학습 데이터 분포에 따라 차이가 있을 수 있다는 점은 향후 더 넓은 범위의 모델군에 대한 추가 검증이 필요함을 시사합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] FlowSlider: Training-Free Continuous Image Editing via Fidelity-Steering Decomposition
현재글 : [논문리뷰] Friends and Grandmothers in Silico: Localizing Entity Cells in Language Models
다음글 [논문리뷰] GPA: Learning GUI Process Automation from Demonstrations