[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World ScenariosShuo Zhang이 arXiv에 게시한 'MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[PaddleOCR] MCP 서버에서 모든 OCR 결과 배치를 파싱하도록 수정로컬 OCR 결과의 첫 번째 배치만 처리하던 버그를 수정하여 전체 결과를 올바르게 파싱합니다.#PaddleOCR#MCP#Bug Fix#OCR#Python2026년 3월 20일댓글 수 로딩 중
[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text RenderingHao Feng이 arXiv에 게시한 'TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering' 논문에 대한 자세한 리뷰입니다.#Review#Visual Text Rendering#Reinforcement Learning#Structural Anomaly Perception#Reward Modeling#Text-to-Image Generation#OCR#MLLMs#Data Augmentation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] OmniOCR: Generalist OCR for Ethnic Minority LanguagesarXiv에 게시된 'OmniOCR: Generalist OCR for Ethnic Minority Languages' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Ethnic Minority Languages#Low-Resource#Dynamic LoRA#Parameter-Efficient Fine-Tuning#Multimodal Models#Sparsity Regularization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] OCR-Agent: Agentic OCR with Capability and Memory ReflectionarXiv에 게시된 'OCR-Agent: Agentic OCR with Capability and Memory Reflection' 논문에 대한 자세한 리뷰입니다.#Review#OCR#VLM#Self-Correction#Agentic AI#Capability Reflection#Memory Reflection#Iterative Refinement#Chain-of-Thought2026년 2월 24일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document ParsingZelun Zhang이 arXiv에 게시한 'PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Visual Language Model (VLM)#Robustness#Multi-task Learning#Layout Analysis#OCR#Real-world Scenarios#Parameter Efficiency2026년 2월 1일댓글 수 로딩 중
[논문리뷰] DeepSeek-OCR 2: Visual Causal FlowarXiv에 게시된 'DeepSeek-OCR 2: Visual Causal Flow' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Vision-Language Model#Causal Reasoning#Transformer Architecture#Attention Mechanism#Document Understanding#DeepEncoder2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Typhoon OCR: Open Vision-Language Model For Thai Document ExtractionarXiv에 게시된 'Typhoon OCR: Open Vision-Language Model For Thai Document Extraction' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#OCR#Thai Language Processing#Document Understanding#Low-Resource Language#Data Synthesis#Fine-tuning#Layout Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCRarXiv에 게시된 'LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Vision-Language Model#End-to-End Learning#Multilingual#Reinforcement Learning#Document Understanding#Bounding Box Prediction#Task Arithmetic Merging2026년 1월 20일댓글 수 로딩 중
[논문리뷰] OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular FusionarXiv에 게시된 'OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Translation#Speech Translation#Simultaneous Translation#Large Language Models#Multimodal Foundation Models#Modular Fusion#End-to-End#Gated Fusion#OCR2025년 12월 1일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1arXiv에 게시된 'NVIDIA Nemotron Parse 1.1' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense ScenesMuhammad Huzaifa이 arXiv에 게시한 'VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes' 논문에 대한 자세한 리뷰입니다.#Review#Visual Question Answering#Multimodal Models#Dense Scenes#Fine-Grained Perception#Benchmark#Error Analysis#Counting#OCR2025년 10월 1일댓글 수 로딩 중
[논문리뷰] CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text RecognitionarXiv에 게시된 'CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Historical Text Recognition#Vision-Language Model#Open-Weight Model#OCR#Cultural Heritage#Low-Cost AI#Dataset Curation#Fine-tuning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document ConversionHaicheng Wang이 arXiv에 게시한 'POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion' 논문에 대한 자세한 리뷰입니다.#Review#문서 변환#시각-언어 모델#자가 개선#합성 데이터#증류 없는 학습#OCR#멀티모달 AI#데이터 필터링2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Ovis2.5 Technical ReportYang Li이 arXiv에 게시한 'Ovis2.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Native Resolution Vision#Deep Reasoning#Chart Analysis#OCR#Visual Grounding#Training Efficiency#Preference Optimization2025년 8월 19일댓글 수 로딩 중