[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.#Review#Document Parsing#Data-Centric AI#Vision-Language Model#Progressive Training#Data Engine2026년 4월 6일댓글 수 로딩 중
[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World ScenariosShuo Zhang이 arXiv에 게시한 'MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Multimodal OCR: Parse Anything from DocumentsLiang Xin이 arXiv에 게시한 'Multimodal OCR: Parse Anything from Documents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal OCR#MOCR#Document Parsing#Structured Graphics#Image-to-SVG#Vision-Language Models#OCR Arena2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document RepresentationsShuliang Liu이 arXiv에 게시한 'Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Vector Retrieval#Visual Document Understanding#Document Parsing#Layout-Informed Embeddings#Information Bottleneck#Storage Efficiency#Late Interaction2026년 3월 8일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document ParsingZelun Zhang이 arXiv에 게시한 'PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Visual Language Model (VLM)#Robustness#Multi-task Learning#Layout Analysis#OCR#Real-world Scenarios#Parameter Efficiency2026년 2월 1일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1arXiv에 게시된 'NVIDIA Nemotron Parse 1.1' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] HunyuanOCR Technical ReportarXiv에 게시된 'HunyuanOCR Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Optical Character Recognition#Multimodal Large Language Model#End-to-End Learning#Reinforcement Learning#Document Parsing#Information Extraction#Text Spotting2025년 11월 25일댓글 수 로딩 중
[논문리뷰] olmOCR 2: Unit Test Rewards for Document OCRarXiv에 게시된 'olmOCR 2: Unit Test Rewards for Document OCR' 논문에 대한 자세한 리뷰입니다.#Review#Document OCR#Vision Language Model#Reinforcement Learning#Unit Tests#Synthetic Data Generation#RLVR#Document Parsing#State-of-the-Art OCR2025년 10월 23일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language ModelarXiv에 게시된 'PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Vision-Language Model#Multilingual OCR#Layout Analysis#Resource-Efficient AI#Table Recognition#Formula Recognition#Chart Recognition2025년 10월 17일댓글 수 로딩 중
[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document ParsingSunYuefeng이 arXiv에 게시한 'MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Vision-Language Model#High-Resolution#Two-Stage Inference#Layout Analysis#Content Recognition#Data Engine#Computational Efficiency2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Logics-Parsing Technical ReportFan Yang이 arXiv에 게시한 'Logics-Parsing Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis#Reading Order#Supervised Fine-Tuning (SFT)#HTML Annotation#Benchmarking2025년 9월 25일댓글 수 로딩 중