#Chart Understanding

5개의 포스트

[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.

#Review #VQA #Japanese #Document AI #Multimodal LLMs #Chart Understanding #Table Reasoning #Benchmark

2026년 6월 1일

[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Vision-Language Models (VLMs)#Perceptual Shaping #KL-Divergence #Chart Understanding #Data Augmentation #Reinforcement Learning (RL)#GRPO

2025년 12월 28일

[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Vision-Language Models (VLM)이 차트 이해 태스크에서 고정된 추론 전략(예: 외부 도구 의존 또는 단일 Chain-of-Thought)으로 인해 복잡하거나 '실제 환경' 차트에서 성능이 저하되는 문제를 해결합니다.

#Review #Visual Programmability #Code-as-Thought (CaT)#Chart Understanding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning #Dual-Reward System #Multimodal AI

2025년 9월 12일

[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense Alignment

기존 VLM이 차트의 세부 정보를 정확하게 인지하고 미세한 구조를 추출하는 데 어려움을 겪어 다중 차트 비교 및 추론 능력이 부족하다는 문제를 해결합니다.

#Review #Vision-Language Models (VLMs)#Chart Understanding #Visual Grounding #Dense Alignment #Benchmark #Robustness #Multimodal Learning

2025년 10월 31일

[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models

기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.

#Review #Chart-to-Code #Multimodal Models #Hierarchical Benchmark #Chart Understanding #Code Generation #Evaluation Metrics #Benchmarking

2025년 10월 23일