[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.#Review#Document OCR#Diffusion Models#Inverse Rendering#Parallel Decoding#Block-Attention#Curriculum Learning#Vision-Language Models2026년 3월 24일댓글 수 로딩 중
[논문리뷰] olmOCR 2: Unit Test Rewards for Document OCR본 논문은 인쇄된 문서를 깨끗하고 자연스럽게 정렬된 일반 텍스트로 변환하는 OCR 시스템인 OLMOCR 2 를 제안합니다. 특히, 강화 학습(RL) 과 검증 가능한 보상(RLVR) 을 활용하여 수학 공식, 테이블 파싱, 다단 레이아웃과 같은 복잡한 문서 구조 처리 성능을 대폭 개선하는 것을 목표로 합니다.#Review#Document OCR#Vision Language Model#Reinforcement Learning#Unit Tests#Synthetic Data Generation#RLVR#Document Parsing#State-of-the-Art OCR2025년 10월 23일댓글 수 로딩 중