[논문리뷰] Can LLMs Predict Their Own Failures? Self-Awareness via Internal Circuits

수정: 2026년 1월 6일

링크: 논문 PDF로 바로 열기

저자: Amirhosein Ghasemabadi, Di Niu

핵심 연구 목표

거대 언어 모델(LLM)이 생성하는 텍스트의 정확성 또는 오류를 스스로 인지하지 못하는 문제를 해결하고, 외부 평가자 없이 LLM 내부 작동을 통해 자체 실패를 예측할 수 있는 경량 메커니즘 을 개발하는 것을 목표로 합니다. 이는 LLM의 신뢰성, 안전성 및 효율성을 향상시키는 데 중요합니다.

핵심 방법론

Gnosis라는 경량 자기 인식 메커니즘을 제안합니다. 이 메커니즘은 LLM의 frozen backbone 에서 hidden statesattention maps를 추출하여 고정된 예산의 디스크립터 로 압축합니다. 이후 듀얼 스트림 인코더 (Hidden Circuit Encoder, Attention Circuit Encoder)를 통해 특징을 추출하고, 게이팅된 MLP 헤드 를 통해 최종적으로 정확도 점수를 예측합니다. 이 방식은 시퀀스 길이에 독립적인 계산 비용을 가집니다.

주요 결과

Gnosis단 5M 개의 파라미터Skywork 8B Reward ModelsGemini 2.5 Pro 와 같은 대규모 외부 평가자들을 일관되게 능가합니다. Math-Reasoning, Open-Domain QA, Academic Knowledge 벤치마크에서 AUROC 성능이 최대 0.96 에 달하며, 1.7B 백본으로 훈련된 헤드가 4B 및 8B 모델에 제로샷 전이 되어 효과적인 ‘형제 모델 평가’가 가능함을 입증했습니다. 또한, 전체 생성의 40%만으로도 거의 최고 정확도에 도달 하여 조기 오류 감지 능력을 보여주었습니다.

AI 실무자를 위한 시사점

Gnosis는 LLM의 내부 역학에서 직접 신뢰성 신호를 추출함으로써, 비용이 많이 드는 외부 평가자 없이도 모델의 신뢰성을 크게 향상시킬 수 있는 효율적인 방법을 제공합니다. 특히 낮은 레이턴시컴퓨팅 효율성 을 통해 실패하는 추론 경로를 조기에 종료하거나 컴퓨팅 자원을 효율적으로 제어하는 새로운 LLM 배포 방식을 가능하게 합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#LLM Self-Awareness#Failure Prediction#Internal States#Attention Mechanisms#Neural Network Probes#Computational Efficiency#Zero-Shot Transfer

Review 의 다른글