[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing본 논문은 실제 환경에서 발생하는 스캔, 기울어짐, 왜곡, 화면 촬영, 조명 변화와 같은 물리적 왜곡에 강건한 문서 파싱 모델 을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Visual Language Model (VLM)#Robustness#Multi-task Learning#Layout Analysis#OCR#Real-world Scenarios#Parameter Efficiency2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Typhoon OCR: Open Vision-Language Model For Thai Document Extraction기존 VLM이 태국어와 같은 저자원 언어의 복잡한 스크립트 특성(비라틴 문자, 명시적 단어 경계 부재, 스택형 발음 구별 부호) 및 비정형 문서 레이아웃으로 인해 겪는 한계를 해결하는 것입니다.#Review#Vision-Language Model#OCR#Thai Language Processing#Document Understanding#Low-Resource Language#Data Synthesis#Fine-tuning#Layout Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing본 연구는 기존 비전-언어 모델(VLM)이 고해상도 문서 처리 시 겪는 토큰 중복, 높은 계산 비용, 환각 문제 등의 한계를 극복하는 것을 목표로 합니다. 특히, 전반적인 계산 효율성을 유지하면서도 복잡하고 밀도 높은 문서의 구조 및 내용을 정확하게 파싱하기 위한 효율적인 디커플링 비전-언어 모델 을 제안합니다.#Review#Document Parsing#Vision-Language Model#High-Resolution#Two-Stage Inference#Layout Analysis#Content Recognition#Data Engine#Computational Efficiency2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Logics-Parsing Technical Report본 논문은 기존 LVLM이 복잡한 문서 레이아웃 및 읽기 순서 처리에서 겪는 한계를 극복하고, 이를 위해 강화 학습(Reinforcement Learning) 을 통해 고도화된 종단 간 LVLM 기반 문서 파싱 모델 을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Large Vision-Language Models (LVLM)#Reinforcement Learning (RL)#Layout Analysis#Reading Order#Supervised Fine-Tuning (SFT)#HTML Annotation#Benchmarking2025년 9월 25일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model본 논문은 다국어 문서 파싱을 위한 SOTA(State-of-the-Art) 및 자원 효율적인 모델인 PaddleOCR-VL을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Vision-Language Model#Multilingual OCR#Layout Analysis#Resource-Efficient AI#Table Recognition#Formula Recognition#Chart Recognition2025년 10월 17일댓글 수 로딩 중