#Layout Analysis

6개의 포스트

[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing

본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Visual Language Model (VLM)#Robustness #Multi-task Learning #Layout Analysis #OCR #Real-world Scenarios #Parameter Efficiency

2026년 2월 1일

[논문리뷰] Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

기존 VLM이 태국어와 같은 저자원 언어의 복잡한 스크립트 특성(비라틴 문자, 명시적 단어 경계 부재, 스택형 발음 구별 부호) 및 비정형 문서 레이아웃으로 인해 겪는 한계를 해결하는 것입니다.

#Review #Vision-Language Model #OCR #Thai Language Processing #Document Understanding #Low-Resource Language #Data Synthesis #Fine-tuning #Layout Analysis

2026년 1월 21일

[논문리뷰] NVIDIA Nemotron Parse 1.1

Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.

#Review #OCR #Document Parsing #Vision-Language Model #Encoder-Decoder #Transformer #Table Extraction #Multilingual OCR #Layout Analysis

2025년 11월 26일

[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

본 연구는 기존 비전-언어 모델(VLM)이 고해상도 문서 처리 시 겪는 토큰 중복, 높은 계산 비용, 환각 문제 등의 한계를 극복하는 것을 목표로 합니다. 특히, 전반적인 계산 효율성을 유지하면서도 복잡하고 밀도 높은 문서의 구조 및 내용을 정확하게 파싱하기 위한 효율적인 디커플링 비전-언어 모델 을 제안합니다.

#Review #Document Parsing #Vision-Language Model #High-Resolution #Two-Stage Inference #Layout Analysis #Content Recognition #Data Engine #Computational Efficiency

2025년 9월 29일

[논문리뷰] Logics-Parsing Technical Report

본 논문은 기존 LVLM이 복잡한 문서 레이아웃 및 읽기 순서 처리에서 겪는 한계를 극복하고, 이를 위해 강화 학습(Reinforcement Learning) 을 통해 고도화된 종단 간 LVLM 기반 문서 파싱 모델 을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis #Reading Order #Supervised Fine-Tuning (SFT)#HTML Annotation #Benchmarking

2025년 9월 25일

[논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model

본 논문은 다국어 문서 파싱을 위한 SOTA(State-of-the-Art) 및 자원 효율적인 모델인 PaddleOCR-VL을 개발하는 것을 목표로 합니다.

#Review #Document Parsing #Vision-Language Model #Multilingual OCR #Layout Analysis #Resource-Efficient AI #Table Recognition #Formula Recognition #Chart Recognition

2025년 10월 17일