[논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

2026년 1월 20일수정: 2026년 1월 20일

링크: 논문 PDF로 바로 열기

저자: Gilat Toker, Nitay Calderon, Ohad Amosy, Roi Reichart

핵심 연구 목표

본 논문은 LLM의 불투명한 의사결정 과정으로 인해 고위험 도메인에서의 적용이 어려운 문제를 해결하고자 합니다. 특히, concept-based explanations의 faithfulness를 평가하기 위한 기존 벤치마크가 human-written counterfactuals에 의존하여 실제 인과 메커니즘을 반영하지 못하는 한계를 지적하며, 진정한 인과 효과를 평가할 수 있는 신뢰성 높은 벤치마크를 제공하는 것을 목표로 합니다.

핵심 방법론

제안하는 LIBERTY 프레임워크는 텍스트 생성을 위한 명시적으로 정의된 Structural Causal Models (SCMs) 을 기반으로 합니다. 개념에 대한 do-intervention 을 SCM을 통해 전파하여 LLM이 구조적 카운터팩추얼(structural counterfactuals) 을 생성하도록 하며, 이를 gold ground truth로 활용합니다. 평가 척도로는 ICaCE Error Distance (ED)와 새로운 Order-Faithfulness (OF) 를 도입하여 설명 방법론이 개념 개입에 따른 효과의 상대적 순서를 얼마나 잘 포착하는지 측정합니다. 세 가지 고위험 시나리오 데이터셋( disease detection, CV screening, workplace violence prediction )을 구축하여 GPT-4o, Llama-3.1 등 5가지 LLM 및 NLP 모델과 8가지 설명 방법론을 평가했습니다.

주요 결과

LIBERTY 벤치마크 평가 결과, Matching 기반 방법론이 전반적으로 우수했으며, 특히 task-specific representation을 활용하는 FT Match 가 가장 낮은 ED(평균 약 0.3) 와 가장 높은 OF(평균 약 0.7) 를 달성하며 가장 faithful한 설명 방법으로 나타났습니다 (Table 2). LLM-generated counterfactuals는 기존 CEBaB 벤치마크와 달리 LIBERTY의 structural counterfactuals 평가에서는 Matching 방법론보다 낮은 성능을 보였습니다. 또한, proprietary LLMs( GPT-4o )가 demographic concepts에 대해 현저히 낮은 민감도를 나타냈는데, 이는 post-training mitigation의 효과일 가능성이 있습니다 (Table 17).

AI 실무자를 위한 시사점

LIBERTY는 LLM의 concept-based explanations에 대한 객관적이고 신뢰할 수 있는 벤치마크 를 제공하여, 고위험 AI 시스템의 explainability 연구 및 개발에 필수적인 토대를 마련합니다. FT Match 와 같이 task-specific representation을 활용하는 matching 기반 설명 방법론의 효용성을 시사하며, 이는 AI 모델의 행동을 더 정확하게 이해하는 데 기여할 수 있습니다. proprietary LLMs의 demographic concepts에 대한 낮은 민감도는 fairness 관점에서 중요하지만, 설명의 faithfulness를 평가할 때는 이러한 mitigation effect를 주의 깊게 고려해야 합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] KAGE-Bench: Fast Known-Axis Visual Generalization Evaluation for Reinforcement Learning
현재글 : [논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
다음글 [논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR