#Block-Attention

1개의 포스트

[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.

#Review #Document OCR #Diffusion Models #Inverse Rendering #Parallel Decoding #Block-Attention #Curriculum Learning #Vision-Language Models

2026년 3월 24일