[논문리뷰] LLM Explainability with Counterfactual Chains and Causal Graphs
링크: 논문 PDF로 바로 열기
메타데이터
저자: Nirit Nussbaum-Hoffer, Nitay Calderon, Liat Ein-Dor, Roi Reichart
1. Key Terms & Definitions (핵심 용어 및 정의)
- Causal Graphs: 노드 간의 직접적인 인과 관계를 나타내는 방향성 그래프로, 본 논문에서는 LLM의 내부 추론 과정과 개념 간의 의존성을 설명하기 위해 활용됩니다.
- $\sigma$-CG: 비선형 구조적 인과 모델(Structural Causal Models)을 위한 인과 발견 알고리즘으로, 순환(cycles) 구조와 잠재적 교란 변수(latent confounders)가 존재하는 상황에서도 데이터로부터 인과 구조를 학습할 수 있습니다.
- Concept Vectors ($\phi(x)$): 입력 텍스트를 LLM이 인식하는 고차원 개념들의 상태로 변환한 벡터이며, 각 요소는 해당 개념이 특정 클래스에 얼마나 기여하는지를 나타냅니다.
- MCMC-inspired Data Expansion: 관측 데이터의 희소성을 해결하기 위해, LLM을 활용하여 타겟 개념을 변경하는 카운터팩추얼(counterfactual) 텍스트를 생성하고, 이를 통해 인과 발견을 위한 고품질 데이터 공간을 확장하는 기법입니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 LLM의 추론 과정이 불투명하여 고위험 영역에서의 신뢰성 확보가 어렵다는 문제를 해결하고자 합니다. 기존의 어텐션 분석이나 특징 기여도(feature attribution) 방식은 본질적으로 상관관계에 기반하고 있어, LLM의 복잡한 추론 메커니즘을 명확하게 설명하는 데 한계가 있습니다. 저자들은 단순한 로컬 해석을 넘어 LLM이 어떻게 개념을 조직하고 예측에 도달하는지에 대한 전역적인 인과적 설명을 제공하기 위해 Causal Graphs를 도입합니다 [Figure 1].

Figure 1 — 인과 그래프 개념
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 LLM 스스로가 개념을 추출하고 데이터를 확장하는 4단계 파이프라인을 제안합니다: (1) LLM 기반 레이블 예측, (2) 차별적 개념 추출 및 주석, (3) MCMC 기반 카운터팩추얼 데이터 확장, (4) $\sigma$-CG를 통한 인과 그래프 구축 [Figure 2]. 특히, MCMC 기법을 활용하여 데이터의 분포와 위상학적 수렴(topological convergence)을 유도함으로써, 데이터의 밀도를 높이고 보다 강건한 인과 관계 학습을 가능하게 했습니다 [Figure 4].

Figure 2 — 4단계 파이프라인

Figure 4 — MCMC 수렴 그래프
실험 결과, 제안하는 인과 그래프 기반 예측 모델은 무작위 개념 조합(Others Acc.) 대비 모든 데이터셋과 모델에서 더 높은 Predictive Fidelity를 보였습니다 [Table 1]. 예를 들어, Gemini-2-Flash 모델의 경우 Disease Diagnosis 작업에서 그래프 기반 예측 정확도는 0.67로, 다른 개념 조합의 평균 정확도인 0.61보다 우수했습니다. 또한, 그래프의 부모 노드(parent set)가 타겟 노드를 예측하는 데 가장 효과적인 변수 집합임을 검증하여 결과의 구조적 안정성을 입증했습니다 [Figure 3].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 LLM의 내부 reasoning 과정을 개념 수준의 Causal Graphs로 변환하는 자동화된 프레임워크를 정립하였습니다. 이는 모델의 추론 과정을 투명하게 공개하여 Stakeholder들이 LLM의 판단 근거를 보다 명확히 이해할 수 있게 돕습니다. 제안된 MCMC 기반 데이터 증강 기법은 인과 발견 분야의 고질적인 데이터 부족 문제를 효과적으로 완화하였으며, 향후 고위험 분야에서 LLM의 신뢰성과 책임성을 강화하는 학계 및 산업적 토대가 될 것입니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
- [논문리뷰] Reasoning with Sampling: Your Base Model is Smarter Than You Think
- [논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines
- [논문리뷰] Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback
- [논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces
Review 의 다른글
- 이전글 [논문리뷰] LIMMT: Less is More for Motion Tracking
- 현재글 : [논문리뷰] LLM Explainability with Counterfactual Chains and Causal Graphs
- 다음글 [논문리뷰] LayerRoute: Input-Conditioned Adaptive Layer Skipping via LoRA Fine-Tuning for Agentic Language Models
댓글