#Document AI

5개의 포스트

[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.

#Review #VQA #Japanese #Document AI #Multimodal LLMs #Chart Understanding #Table Reasoning #Benchmark

2026년 6월 1일

[논문리뷰] NVIDIA Nemotron Nano V2 VL

Nemotron Nano V2 VL은 강력한 실세계 문서 이해 , 긴 비디오 이해 , 그리고 추론 태스크 를 위해 설계된 최신 비전-언어 모델입니다.

#Review #Vision-Language Model #Hybrid Architecture #Mamba-Transformer #Long-Context Understanding #Quantization #Efficient Inference #Document AI #Video AI

2025년 11월 9일

[논문리뷰] MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe

본 논문은 급속히 발전하는 Multimodal Large Language Models (MLLMs)의 고질적인 훈련 및 추론 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #MLLM Efficiency #Multimodal Transformer #3D-Resampler #Document AI #Hybrid Reinforcement Learning #Video Understanding #Efficient Inference

2025년 9월 24일

[논문리뷰] OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

본 연구는 다양한 문서 레이아웃 데이터의 부족과 복잡한, 긴 시퀀스 시나리오에서 기존 문서 레이아웃 생성 방법론의 한계를 극복하는 것을 목표로 합니다.

#Review #Document Layout Generation #Large Language Models (LLMs)#Coarse-to-Fine Learning #Dataset Curation #OmniLayout-1M #Document AI #Generative Models

2025년 10월 31일

[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.

#Review #Multimodal RAG #Document AI #Benchmark #Information Retrieval #Large Language Models #Multimodal Embeddings #PDF Processing #Question Answering

2025년 10월 10일