[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.#Review#Document OCR#Diffusion Models#Inverse Rendering#Parallel Decoding#Block-Attention#Curriculum Learning#Vision-Language Models2026년 3월 24일댓글 수 로딩 중