[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.#Review#VQA#Japanese#Document AI#Multimodal LLMs#Chart Understanding#Table Reasoning#Benchmark2026년 6월 1일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano V2 VLNemotron Nano V2 VL은 강력한 실세계 문서 이해 , 긴 비디오 이해 , 그리고 추론 태스크 를 위해 설계된 최신 비전-언어 모델입니다.#Review#Vision-Language Model#Hybrid Architecture#Mamba-Transformer#Long-Context Understanding#Quantization#Efficient Inference#Document AI#Video AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipe본 논문은 급속히 발전하는 Multimodal Large Language Models (MLLMs)의 고질적인 훈련 및 추론 효율성 문제를 해결하는 것을 목표로 합니다.#Review#MLLM Efficiency#Multimodal Transformer#3D-Resampler#Document AI#Hybrid Reinforcement Learning#Video Understanding#Efficient Inference2025년 9월 24일댓글 수 로딩 중
[논문리뷰] OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation본 연구는 다양한 문서 레이아웃 데이터의 부족과 복잡한, 긴 시퀀스 시나리오에서 기존 문서 레이아웃 생성 방법론의 한계를 극복하는 것을 목표로 합니다.#Review#Document Layout Generation#Large Language Models (LLMs)#Coarse-to-Fine Learning#Dataset Curation#OmniLayout-1M#Document AI#Generative Models2025년 10월 31일댓글 수 로딩 중
[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.#Review#Multimodal RAG#Document AI#Benchmark#Information Retrieval#Large Language Models#Multimodal Embeddings#PDF Processing#Question Answering2025년 10월 10일댓글 수 로딩 중