본문으로 건너뛰기

[논문리뷰] When LLMs Read Tables Carelessly: Measuring and Reducing Data Referencing Errors

링크: 논문 PDF로 바로 열기

메타데이터

저자: Yuqing Yang, Qi Zhu, Zhen Han, Boran Han, Zhengyuan Shen, Shuai Wang, Vassilis N. Ioannidis, Huzefa Rangwala


## 1. Key Terms & Definitions (핵심 용어 및 정의)

  • Data Referencing Errors (DREs): LLM이 표의 데이터를 처리할 때 발생하는 오류로, 잘못된 데이터 인용(Incorrect Citation)이나 특정 정보 누락(Omitted Information)을 의미합니다.
  • LLM-as-a-Judge: 외부의 고성능 LLM(예: Sonnet-3.7)을 사용하여 생성된 응답 내의 DRE를 자동으로 탐지하고 평가하는 프레임워크입니다.
  • Critic-based Filtering: 다수의 생성된 응답 중 Critic 모델의 판단을 기반으로 DRE가 가장 적은 응답 후보군을 선별하여 성능을 최적화하는 기법입니다.
  • RLVR (Reinforcement Learning with Verified Reward): 검증 가능한 보상 신호를 사용하여 Critic 모델의 DRE 탐지 능력을 향상시키는 강화학습 전략입니다.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 LLM이 표 기반 작업에서 구조를 이해하더라도 데이터를 인용하는 과정에서 '부주의'하게 오류를 범하는 Data Referencing Errors (DREs) 문제를 해결하고자 합니다 [Figure 1]. 기존 연구들은 최종적인 Answer Accuracy에만 집중했으나, DRE는 중간 추론 과정의 신뢰성을 근본적으로 훼손하며 모델의 전체적인 성능을 떨어뜨립니다. 특히 표 데이터의 조밀하고 유사한 구조는 모델이 특정 행이나 열을 혼동하거나 누락하게 만드는 주요 원인이 됩니다. 기존의 Self-reflection이나 일반적인 프롬프트 전략만으로는 이러한 DRE를 효과적으로 제거하지 못한다는 한계가 존재합니다 [Figure 1].

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 저자들은 DRE를 탐지하고 완화하기 위해 Critic 모델을 활용한 두 가지 inference-time 전략인 Critic-based FilteringRejection Sampling을 제안합니다. 제안된 프레임워크는 먼저 LLM-as-a-Judge 방식을 통해 모델 응답의 DRE를 정밀하게 진단하며, 이를 토대로 DRE가 적은 응답을 선별하거나(Filtering), 오류가 탐지된 구간을 재생성(Re-sampling)합니다. 특히 고비용의 대형 모델 대신 4B 파라미터 규모의 Critic-4B 모델을 SFTRLVR을 결합하여 학습시켰습니다. 실험 결과, 제안된 Rejection Sampling은 다양한 모델(예: Qwen3-8B, Llama4-Scout)에서 최종 Answer Accuracy를 최대 11.96% 향상시키는 성과를 보였습니다 [Table 3]. 또한 Critic-4B는 untrained baseline 대비 평균 8.65% F1 score 향상을 달성하며, In-distributionOut-of-distribution 환경 모두에서 강건한 DRE 탐지 성능을 입증했습니다 [Figure 2].

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 표 기반 추론 작업에서 DREs가 단순한 부주의가 아닌 시스템적인 약점임을 명확히 규명했습니다. 연구를 통해 제안된 Critic 기반 완화 전략은 모델 자체를 변경하지 않고도 추론 성능을 크게 향상시킬 수 있음을 보여주었습니다. 이는 향후 LLM의 신뢰성을 높이기 위해 최종 결과 중심의 평가를 넘어, 중간 추론 과정의 데이터 참조 정확성을 중요한 지표로 고려해야 한다는 점을 시사합니다. 본 연구는 보다 정교하고 신뢰할 수 있는 데이터 분석 AI 시스템 개발을 위한 핵심적인 방법론을 제시합니다.


Part 2: 중요 Figure 정보

Figure 1: 표 데이터 인용 오류 예시

Figure 1 — 표 데이터 인용 오류 예시

Figure 2: Critic 모델의 F1 점수 비교

Figure 2 — Critic 모델의 F1 점수 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글