[논문리뷰] Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

2026년 6월 15일수정: 2026년 6월 15일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Nafiseh Nikeghbal, Amir Hossein Kargaran, Shaghayegh Kolli, Jana Diesner

1. Key Terms & Definitions (핵심 용어 및 정의)

Answer Instability: LLM이 초기에는 정답을 제시하더라도, 이후 설득력 있는 오답 논리(Counter-argument)를 제시받았을 때 기존의 정답을 포기하고 답변을 바꾸는 현상을 의미합니다.
AFR (Answer Flip Rate): 모델이 초기에는 정답을 맞혔으나, 제시된 counter-argument를 본 후 최종적으로 오답을 선택하는 비율로, 본 연구의 핵심 평가 지표입니다.
Stage I Coercion: 모델이 특정 질문에 대해 오답을 지지하는 논리를 강제로 생성하도록 지시하는 단계입니다.
Self-attribution: 모델에게 제시되는 counter-argument가 '본인이 이전에 생성했던 답변'임을 명시하여, 모델의 답변 변경에 미치는 영향을 측정하는 기법입니다.
MaxFlip: 다양한 모델에서 생성된 오답 논리 중 가장 높은 AFR을 유도하는 논리를 선택적으로 풀링(Pooling)하여 구성한 고효율 Adversarial challenge 데이터셋입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM이 정답을 알고 있음에도 불구하고, 외부의 그럴듯한 반론에 의해 얼마나 쉽게 답변을 번복하는지, 즉 '답변 안정성(Answer Stability)'을 체계적으로 평가하는 데 목적이 있습니다. 기존의 Sycophancy 연구들은 사용자 피드백(예: "Are you sure?") 등 사회적 압박과 argumentative content를 분리하지 못하는 한계가 있었습니다 [Figure 1]. 저자들은 이러한 사회적 암시를 제거하고, 순수하게 '논리적인 반론'만이 모델의 답변 변경에 미치는 영향을 격리하여 평가하기 위해 새로운 2단계 프로토콜을 제안합니다. 이를 통해 단순히 정답률(Accuracy)만으로는 알 수 없는 모델의 내재적 취약성과 불안정성을 심층적으로 분석하고자 합니다.

Figure 1: 모델 안정성 평가 2단계 프로토콜

Figure 1 — 모델 안정성 평가 2단계 프로토콜

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 7개의 Frontier LLM과 MMLU 데이터셋의 57개 주제를 활용하여 AFR을 측정하였습니다. Stage I에서 모델을 강제하여 오답 논리를 생성하게 하고, Stage II에서 이를 대상 모델에게 제시하는 방식으로 연구를 진행하였습니다 [Figure 1]. 실험 결과, 모델마다 AFR 편차가 17.5%에서 97.3%로 매우 크게 나타나며, 모델의 크기보다는 모델 패밀리 및 모델 자체의 특성이 안정성을 결정하는 주 요인임을 확인했습니다 [Table 2]. 특히 Self-attribution을 추가할 경우 모든 모델에서 AFR이 평균 +7.1pp, 최대 +18.7pp 증가하며 답변 불안정성이 심화되는 현상을 보였습니다 [Table 3]. 또한 cross-model 설정에서 특정 모델의 AFR은 대상 모델의 내재적 특성에 의해 76.7%가 결정되며, MaxFlip을 사용할 경우 일반적인 self-generated challenge보다 AFR이 최대 +23.6pp까지 증폭되는 것을 입증하였습니다. 주제별로 보았을 때 STEM 분야가 가장 견고하며, Humanities 및 Health 분야가 가장 취약함이 관찰되었습니다 [Figure 2].

Figure 2: 주제별 AFR 및 강제 성공률 분포

Figure 2 — 주제별 AFR 및 강제 성공률 분포

4. Conclusion & Impact (결론 및 시사점)

본 연구는 LLM의 답변 안정성이 정답률과는 별개의 독립적인 성능 지표임을 입증하며, 이를 평가하기 위한 새로운 프로토콜과 MaxFlip 데이터셋을 제시하였습니다. 논리의 길이, 귀속 방식(Self vs Blind), 모델 간 상호작용이 답변 변경에 미치는 영향을 정량화함으로써, 향후 모델의 Sycophancy를 완화하고 견고한 추론 능력을 갖춘 모델을 개발하는 데 중요한 기반을 마련하였습니다. 이러한 분석은 신뢰할 수 있는 AI 시스템 구축을 위해 단순히 '정답'을 내는 모델을 넘어, '반론에도 흔들리지 않는' 모델 평가의 필요성을 학계와 산업계에 시사합니다.

Figure 3: 교차 모델 간 AFR 비교 행렬

Figure 3 — 교차 모델 간 AFR 비교 행렬

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking
현재글 : [논문리뷰] Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs
다음글 [논문리뷰] Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models