[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.#Review#Document Parsing#Data-Centric AI#Vision-Language Model#Progressive Training#Data Engine2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Mario: Multimodal Graph Reasoning with Large Language ModelsarXiv에 게시된 'Mario: Multimodal Graph Reasoning with Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Graph#Large Language Models#Graph Reasoning#Cross-Modal Alignment#Modality Adaptation#Instruction Tuning#Vision-Language Model#Node Classification2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Code2World: A GUI World Model via Renderable Code GenerationarXiv에 게시된 'Code2World: A GUI World Model via Renderable Code Generation' 논문에 대한 자세한 리뷰입니다.#Review#GUI World Model#Renderable Code Generation#Vision-Language Model#Reinforcement Learning#HTML Synthesis#UI Prediction#GUI Agents2026년 2월 10일댓글 수 로딩 중
[논문리뷰] PaperBanana: Automating Academic Illustration for AI ScientistsarXiv에 게시된 'PaperBanana: Automating Academic Illustration for AI Scientists' 논문에 대한 자세한 리뷰입니다.#Review#Automated Illustration Generation#Agentic Framework#Vision-Language Model#Image Generation#Methodology Diagrams#Statistical Plots#Academic Publishing#Iterative Refinement2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific DiscoveryarXiv에 게시된 'Innovator-VL: A Multimodal Large Language Model for Scientific Discovery' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Scientific AI#Data Efficiency#Reinforcement Learning#Vision-Language Model#Scientific Reasoning#Reproducible AI2026년 1월 28일댓글 수 로딩 중
[논문리뷰] DeepSeek-OCR 2: Visual Causal FlowarXiv에 게시된 'DeepSeek-OCR 2: Visual Causal Flow' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Vision-Language Model#Causal Reasoning#Transformer Architecture#Attention Mechanism#Document Understanding#DeepEncoder2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Typhoon OCR: Open Vision-Language Model For Thai Document ExtractionarXiv에 게시된 'Typhoon OCR: Open Vision-Language Model For Thai Document Extraction' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#OCR#Thai Language Processing#Document Understanding#Low-Resource Language#Data Synthesis#Fine-tuning#Layout Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCRarXiv에 게시된 'LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Vision-Language Model#End-to-End Learning#Multilingual#Reinforcement Learning#Document Understanding#Bounding Box Prediction#Task Arithmetic Merging2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal DatasetYuanFu Yang이 arXiv에 게시한 'Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Industrial Defect Detection#Multimodal Dataset#Vision-Language Model#Diffusion Model#Open-Vocabulary Learning#Quality Inspection#Data Efficiency#Foundation Model2026년 1월 8일댓글 수 로딩 중
[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal ContextKun Gai이 arXiv에 게시한 'VINO: A Unified Visual Generator with Interleaved OmniModal Context' 논문에 대한 자세한 리뷰입니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video GenerationarXiv에 게시된 'PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Video Generation#Physics-Aware AI#Direct Preference Optimization#Groupwise Preference Learning#Vision-Language Model#LoRA2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Qwen3-VL Technical ReportarXiv에 게시된 'Qwen3-VL Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Multimodal Reasoning#Long-Context#Interleaved Data#Mixture-of-Experts#DeepStack#Agentic AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Jina-VLM: Small Multilingual Vision Language ModelarXiv에 게시된 'Jina-VLM: Small Multilingual Vision Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Multilingual VLM#Small VLM#Visual Question Answering#Attention Pooling#Image Tiling#SigLIP#Qwen2025년 12월 3일댓글 수 로딩 중
[논문리뷰] OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-CriticarXiv에 게시된 'OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Driving#Reinforcement Fine-tuning#LLM-as-Critic#Vision-Language Model#End-to-End Learning#Chain-of-Thought#Trajectory Planning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1arXiv에 게시된 'NVIDIA Nemotron Parse 1.1' 논문에 대한 자세한 리뷰입니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPOarXiv에 게시된 'Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Next Event Prediction#Reinforcement Learning#Vision-Language Model#Video Diffusion Model#Joint Optimization#Multimodal AI#Procedural Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video UnderstandingarXiv에 게시된 'TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Understanding#Hybrid Mamba-Transformer#Vision-Language Model#Token Compression#Vision-to-Text Aggregation#Efficient LLM#Multimodal AI2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Lumine: An Open Recipe for Building Generalist Agents in 3D Open WorldsarXiv에 게시된 'Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds' 논문에 대한 자세한 리뷰입니다.#Review#Generalist Agent#3D Open World#Vision-Language Model#Imitation Learning#Real-time Inference#Hybrid Thinking#Action Chunking#Genshin Impact2025년 11월 12일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano V2 VLarXiv에 게시된 'NVIDIA Nemotron Nano V2 VL' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Hybrid Architecture#Mamba-Transformer#Long-Context Understanding#Quantization#Efficient Inference#Document AI#Video AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Surfer 2: The Next Generation of Cross-Platform Computer Use AgentsarXiv에 게시된 'Surfer 2: The Next Generation of Cross-Platform Computer Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer Use Agent#Cross-Platform#GUI Automation#Vision-Language Model#Hierarchical Architecture#Agent Orchestration#Visual Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language ModelarXiv에 게시된 'PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Vision-Language Model#Multilingual OCR#Layout Analysis#Resource-Efficient AI#Table Recognition#Formula Recognition#Chart Recognition2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image GenerationarXiv에 게시된 'UniFusion: Vision-Language Model as Unified Encoder in Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Unified Encoder#Image Generation#Diffusion Models#Multimodal Learning#Text-to-Image#Image Editing#Zero-shot Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k CorpusZhonghao Zhang이 arXiv에 게시한 'SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus' 논문에 대한 자세한 리뷰입니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중
[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document ParsingSunYuefeng이 arXiv에 게시한 'MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing' 논문에 대한 자세한 리뷰입니다.#Review#Document Parsing#Vision-Language Model#High-Resolution#Two-Stage Inference#Layout Analysis#Content Recognition#Data Engine#Computational Efficiency2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text RecognitionarXiv에 게시된 'CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Historical Text Recognition#Vision-Language Model#Open-Weight Model#OCR#Cultural Heritage#Low-Cost AI#Dataset Curation#Fine-tuning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCRZeina Aldallal이 arXiv에 게시한 'Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR' 논문에 대한 자세한 리뷰입니다.#Review#Arabic OCR#Vision-Language Model#Fine-tuning#Document Understanding#Markdown Conversion#Benchmark2025년 9월 24일댓글 수 로딩 중
[논문리뷰] SAIL-VL2 Technical ReportZijian Kang이 arXiv에 게시한 'SAIL-VL2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Multimodal Understanding#Mixture-of-Experts#Progressive Training#Data Curation#Supervised Fine-tuning#Reinforcement Learning#SAIL-ViT2025년 9월 18일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive BenchmarkShuai Bai이 arXiv에 게시한 'FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중
[논문리뷰] MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and ReportingVanessa Wildman이 arXiv에 게시한 'MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting' 논문에 대한 자세한 리뷰입니다.#Review#3D CT#Vision-Language Model#Medical Imaging#Diagnostic Error Reduction#Multi-scale Alignment#Semantic Enrichment#Radiology Reporting#Zero-shot Learning2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic ManipulationFei Ni이 arXiv에 게시한 'Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Robotic Manipulation#Reinforcement Learning#Vision-Language Model#Pointing#Zero-shot Generalization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding ModelsDongdong Zhang이 arXiv에 게시한 'VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중