[논문리뷰] Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation

2026년 5월 5일수정: 2026년 5월 5일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Peiyang Liu, Ziqiang Cui, Xi Wang, Di Liang, Wei Ye

1. Key Terms & Definitions (핵심 용어 및 정의)

iRAG (Iterative Retrieval-Augmented Generation): 다단계 검색과 추론을 반복하여 지식 집약적인 질문에 답하는 RAG의 발전된 패러다임입니다.
CoE (Chain of Evidence): 문서 스크린샷 내에서 증거가 되는 영역을 Bounding Box로 직접 지칭하여 시각적 추론 체인을 구성하는 제안 방법론입니다.
Loc-Acc (Evidence Localization Accuracy): 모델이 올바른 후보 이미지를 선택하고, 예측한 Bounding Box가 지면 진실(Ground Truth) 영역과 일정 수준 이상의 IoU(Intersection over Union)를 확보했을 때를 측정하는 지표입니다.
Chain-Acc (Reasoning Chain Accuracy): 모델이 매 추론 단계에서 올바른 문서를 선택하고, 해당 문서들이 정답 도출을 위한 올바른 논리적 순서로 구성되었는지 평가하는 지표입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 text-based iRAG 시스템이 겪는 Coarse-grained attribution과 Visual semantic loss 문제를 해결하기 위해 고안되었습니다. 기존 시스템은 복잡한 문서를 텍스트로만 변환하여 처리하기 때문에, 차트, 다이어그램, 슬라이드 레이아웃 등에 담긴 공간적 논리 정보를 상실하는 치명적인 한계가 있습니다. 또한, 사용자에게 텍스트 기반의 모호한 인용만 제공하여 실제 증거를 찾기 위해 직접 문서를 탐색해야 하는 'Verification Bottleneck'을 유발합니다. 저자들은 이러한 한계를 극복하기 위해 문서의 텍스트 파싱을 거치지 않고 스크린샷 원본에서 직접 증거를 시각화하는 방식이 필수적이라고 주장합니다 [Figure 1].

Figure 1: 기존 텍스트 방식과 CoE 방식 비교

Figure 1 — 기존 텍스트 방식과 CoE 방식 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들이 제안하는 CoE는 VLM(Vision-Language Model)을 활용하여 입력된 문서 후보군으로부터 답변과 함께 증거 추론 체인(Chain of Evidence)을 생성하는 retriever-agnostic 프레임워크입니다. 제안 모델은 Qwen3-VL-8B-Instruct를 백본으로 하며, Curriculum Learning을 통해 단일 단계 증거 탐색에서 다단계 추론으로 학습을 확장합니다. Wiki-CoE 데이터셋에서 CoE-8B 모델은 82.3%의 EM(Exact Match), 94.4%의 Chain-Acc, 80.4%의 Loc-Acc를 기록하며 SOTA 수준의 성능을 입증했습니다 [Table 2]. 특히 SlideVQA와 같은 복잡한 비정형 레이아웃 환경에서 기존 text-based baseline 대비 Loc-Acc 지표에서 54.2% 이상의 압도적인 성능 향상을 보였습니다. 이는 CoE가 시각적 구조를 적극적으로 활용함으로써 다이어그램과 공간적 관계가 중요한 정보 탐색에서 강력한 경쟁 우위를 가짐을 시사합니다 [Figure 3].

Figure 3: 질문 유형 및 추론 깊이별 성능 분석

Figure 3 — 질문 유형 및 추론 깊이별 성능 분석

4. Conclusion & Impact (결론 및 시사점)

본 논문은 iRAG 환경에서 텍스트 파싱 기반의 패러다임을 탈피하여, 시각적 기반의 증거 추론 체인을 구축하는 것이 기술적으로 우월함을 입증했습니다. 시각적 정보가 단순한 해석을 위한 보조 수단이 아니라, 복잡한 지식 추론을 위한 핵심 요소임을 명확히 밝혔다는 점에서 의의가 큽니다. 이 연구는 고부가가치 도메인(금융, 의료, 법률) 등에서 AI 답변의 투명성을 극대화하고, 사용자가 신뢰할 수 있는 verifiable AI 시스템 구축을 위한 실질적인 설계 청사진을 제시합니다.

Figure 5: CoE 시각적 증거 탐색 사례 분석

Figure 5 — CoE 시각적 증거 탐색 사례 분석

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL
현재글 : [논문리뷰] Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation
다음글 [논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue