[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

2026년 4월 2일수정: 2026년 4월 2일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Shuo Zhang, Ziyang Zhang, Qiang Liu, Zhibo Lin, Zhang Li, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Document Parsing : 시각적 문서 이미지로부터 레이아웃, 텍스트, 표, 수식 등의 정보를 추출하여 기계가 읽을 수 있는 구조적 형태로 변환하는 기술입니다.
Digital-born Document : 초기부터 디지털 형식(PDF 등)으로 생성된 문서로, 물리적 변형이나 인쇄 품질 저하가 없는 깨끗한 형태의 데이터를 의미합니다.
Photographed Document : 인쇄물이나 화면을 카메라로 촬영한 문서로, 물리적 굴곡, 빛 반사, blur, 복잡한 배경 등 실제 환경의 제약 조건이 포함된 데이터를 지칭합니다.
VLM (Vision-Language Model) : 이미지와 텍스트를 동시에 처리하여 시각적 정보를 텍스트 기반의 의미론적 정보로 해석하는 고성능 모델 군입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다. 기존 벤치마크들은 고품질의 디지털 데이터 위주로 구성되어 있어, 다양한 언어 체계(non-Latin script)나 실제 환경의 물리적 노이즈(physical deformation, lighting variation)에 대응하는 모델의 강건성을 검증하기 어렵습니다. 저자들은 이러한 격차를 해소하기 위해 MDPBench 를 제안하며, 17개 언어와 다양한 실제 촬영 조건이 포함된 실질적인 평가 기준을 마련하고자 합니다 [Figure 1].

Figure 1: MDPBench 개요

Figure 1 — MDPBench 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들이 제안하는 MDPBench 는 3,400개의 문서 이미지로 구성된 첫 다국어 문서 파싱 벤치마크로, expert model labeling, 수동 수정, human verification을 포함한 3단계 주석 프로세스를 통해 고품질의 Ground-truth를 구축했습니다 [Figure 3]. 본 벤치마크는 공개(2,720개) 및 비공개(680개) 평가 셋으로 분리되어 데이터 유출을 방지하며, 페이지 단위의 집계 전략을 통해 언어별 불균형 문제를 완화했습니다. 주요 실험 결과로 proprietary 모델인 Gemini-3-Pro 가 전반적인 성능에서 가장 우수했으나, 오픈소스 모델들은 실생활 환경에서 상당한 성능 하락을 보였습니다. 구체적으로, photographed 문서 환경에서 전체적으로 17.8% 의 성능 하락이 관찰되었으며, non-Latin script 언어의 경우 Latin 기반 언어 대비 14.0% 낮은 정확도를 기록했습니다 [Table 2]. 특히, 촬영된 문서에서의 인식 오류가 디지털 문서 대비 높게 나타났으며, 모델의 hallucination과 읽기 순서(reading order) 오류가 실무 적용의 주요 걸림돌임이 확인되었습니다 [Figure 4, Figure 6].

Figure 3: 데이터 주석 파이프라인

Figure 3 — 데이터 주석 파이프라인

4. Conclusion & Impact (결론 및 시사점)

본 연구는 다국어 문서 파싱의 실질적인 평가 도구인 MDPBench 를 제공함으로써, 기존 모델들이 가진 언어적 편향성과 물리적 환경 대응력 부족을 명확히 규명했습니다. 이 결과는 향후 연구자들이 더 포괄적이고 실제 배치(deployment) 가능한 Document Parsing 시스템을 설계하는 데 중요한 지표가 될 것입니다. 궁극적으로 본 연구는 고품질의 멀티모달 데이터셋 구축의 중요성을 강조하며, LLM pre-training을 위한 데이터 전처리 역량 강화 및 다국어 AI 인프라 발전에 기여합니다.

Figure 4: 촬영 문서 파싱 결과 예시

Figure 4 — 촬영 문서 파싱 결과 예시

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation
현재글 : [논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios
다음글 [논문리뷰] Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning