[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

2026년 6월 1일수정: 2026년 6월 1일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Issa Sugiura, Shuhei Kurita, Yusuke Oda, Naoaki Okazaki

1. Key Terms & Definitions (핵심 용어 및 정의)

HakushoBench: 일본 정부 백서에 포함된 복잡한 시각 자료를 활용해 Multimodal LLMs의 데이터 해석 능력을 평가하는 신규 VQA 벤치마크입니다.
Governmental White Papers: 일본 정부 부처에서 발간하는 공식 보고서로, 고도로 구조화된 표와 차트가 포함되어 있어 Document AI 모델의 복잡한 시각적 추론 능력을 요구합니다.
VQA (Visual Question Answering): 이미지 데이터와 관련된 질문에 대해 모델이 정확한 답변을 생성해야 하는 Multimodal 태스크의 핵심 지표입니다.
Multimodal LLMs: 텍스트와 이미지를 동시에 처리하여 문서 내의 시각 정보와 문맥 정보를 결합해 추론하는 최신 AI 모델 체계입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다. 기존의 Baseline 모델들은 일본어 OCR 성능의 한계와 시각적 데이터의 복잡성으로 인해 일본 정부 백서 내의 차트와 표를 정확히 해석하는 데 구조적인 어려움을 겪습니다. 특히 문서 내 시각 정보와 그에 수반되는 복잡한 설명문의 관계를 이해하는 능력은 일반적인 모델에서 크게 저하되는 경향이 있습니다. 따라서 본 논문은 일본 행정 환경에 특화된 고난도 벤치마크를 구축하여 Multimodal LLMs의 실질적인 시각 추론 능력을 정량화할 필요성을 제기합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 일본 정부의 공공 데이터를 수집하고 이를 기반으로 큐레이션한 차트 및 표 데이터를 포함하는 HakushoBench 프레임워크를 제안합니다. 저자들은 데이터의 난이도를 조정하고 실제 정책 결정 및 분석 환경에서 발생할 법한 질문들을 설계하여 End-to-End 성능 평가를 가능하게 하였습니다 [Figure 1]. 실험 결과, 최신 SOTA 수준의 Multimodal LLMs라 할지라도 일본어의 복잡한 어휘와 도표 구조를 처리하는 데 있어 Accuracy가 낮게 측정되는 경향을 확인하였습니다. 구체적으로, 일반적인 벤치마크 대비 HakushoBench에서의 성능 하락은 모델의 Reasoning Capability와 Multilingual 처리 능력 간의 불균형을 시사합니다. 또한, 본 벤치마크는 특정 Model Architecture나 Pretraining 방식이 일본의 전문 문서 영역에서 어느 정도의 Latency와 정확도를 보이는지 효과적으로 측정할 수 있는 지표를 제공합니다.

Figure 1: HakushoBench 데이터 구성 예시

Figure 1 — HakushoBench 데이터 구성 예시

4. Conclusion & Impact (결론 및 시사점)

본 연구는 일본 행정 문서 해석을 위한 최초의 특화 벤치마크로서, Multimodal LLM 연구가 언어와 문화적 맥락에 따라 어떻게 차별화된 성능을 보이는지 규명하였습니다. HakushoBench를 통해 학계는 일본어 문서 이해력을 향상시키기 위한 새로운 Fine-tuning 전략 및 Data Augmentation 연구를 촉진할 것으로 기대됩니다. 또한 본 연구는 정부 기관의 효율적인 행정 업무 자동화를 위한 문서 분석 시스템 개발에 중요한 가이드라인을 제공합니다. 향후 본 벤치마크는 더욱 다양한 시각적 복잡도를 가진 문서로 확장되어 Document AI 분야의 글로벌 표준 평가 도구로서 역할을 수행할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search
현재글 : [논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers
다음글 [논문리뷰] Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses