[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale
링크: 논문 PDF로 바로 열기
Part 1: 요약 본문
메타데이터
저자: Yuan Qu, Mengzhang Cai, Wenzheng Zhang, et al.
## 1. Key Terms & Definitions (핵심 용어 및 정의)
- MinerU2.5-Pro : 데이터 엔지니어링과 학습 전략 최적화만으로 성능을 극대화한 1.2B 파라미터 규모의 문서 파싱 모델.
- Data Engine : 문서 파싱 성능 향상을 위해 데이터의 범위(Coverage), 정보성(Informativeness), 주석 정확도(Annotation Accuracy)를 공통 설계한 데이터 구축 프레임워크.
- CMCV (Cross-Model Consistency Verification) : 복수의 이기종 SOTA 모델 간 출력 일치도를 기반으로 데이터의 난이도를 평가하고, 신뢰 가능한 주석을 생성하는 기법.
- OmniDocBench v1.6 : 요소 매칭 편향을 제거하고 난이도별(Base/Hard/Full) 3단계 평가 프로토콜을 도입하여 기존 벤치마크의 한계를 보완한 개선된 평가 체계.
- GRPO (Group Relative Policy Optimization) : 모델의 출력 포맷과 구조적 규칙을 강화하기 위해, 직접적인 작업 수준 메트릭을 보상 신호로 활용하는 강화 학습 기법.
## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 문서 파싱 분야의 성능 병목 현상이 모델 아키텍처의 혁신 부재가 아니라, 학습 데이터의 고질적인 결함에 기인한다는 점을 밝힌다. 기존 연구들은 아키텍처 개선에 집중했으나, 다양한 규모와 아키텍처의 모델들이 동일한 고난도 샘플에서 공통적인 실패 패턴을 보인다는 사실이 발견되었다. 기존 학습 데이터는 분포가 불균형하고, 가장 학습 효과가 높은 고난도 샘플에 대한 자동 주석이 매우 불확실하다는 문제가 존재한다. 이에 저자들은 모델 구조 수정 없이 오직 데이터 중심의 체계적인 개선을 통해 성능 향상을 이룰 수 있음을 입증하고자 한다 [Figure 1].
## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 [Figure 2]. DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 [Figure 3], CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다. 이후 주석 정확도를 높이기 위해 렌더링된 결과를 시각적으로 비교하여 교정하는 Judge-and-Refine 파이프라인을 적용하였고, 최종적으로 3단계(Pre-training, SFT, GRPO) progressive 학습 전략을 통해 모델을 최적화하였다. 실험 결과, MinerU2.5-Pro는 아키텍처 수정 없이 OmniDocBench v1.6에서 95.69점을 달성하여, 기존 베이스라인 대비 2.71점 향상된 성능을 기록하였다 [Table 2]. 특히, 고난도(Hard) 데이터셋에서 경쟁 모델들을 압도하며 모델의 견고함을 입증하였다.
## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 문서 파싱 성능 향상을 위한 핵심 동력이 아키텍처 혁신에서 체계적인 데이터 엔지니어링으로 전환되었음을 시사한다. 제안된 데이터 엔진과 점진적 학습 전략은 모델 규모에 관계없이 적용 가능한 범용적인 프레임워크로, 해당 분야의 데이터 구축 패러다임을 재정립하였다. 이러한 접근 방식은 데이터 부족과 품질 이슈를 겪는 다양한 multimodal AI 연구에 중요한 이정표가 될 것으로 기대된다. 향후 연구에서는 문서의 내용 추출을 넘어, 데이터 내의 복잡한 구조적 관계까지 파악하는 심층적인 시맨틱 이해 능력 확보가 중요할 것이다.
Part 2: 중요 Figure 정보
[
{"figure_id": "Figure 1", "image_url": "https://arxiv.org/html/2604.04771/2604.04771v1/x1.png", "caption_kr": "모델 성능 비교"},
{"figure_id": "Figure 2", "image_url": "https://arxiv.org/html/2604.04771/2604.04771v1/x2.png", "caption_kr": "데이터 엔진 파이프라인"},
{"figure_id": "Figure 3", "image_url": "https://arxiv.org/html/2604.04771/2604.04771v1/x3.png", "caption_kr": "DDAS 데이터 샘플링"}
]
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing
- [논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context
- [논문리뷰] NVIDIA Nemotron Parse 1.1
- [논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
- [논문리뷰] SAIL-VL2 Technical Report
Review 의 다른글
- 이전글 [논문리뷰] LightThinker++: From Reasoning Compression to Memory Management
- 현재글 : [논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale
- 다음글 [논문리뷰] OpenWorldLib: A Unified Codebase and Definition of Advanced World Models
댓글