[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.#Review#VQA#Japanese#Document AI#Multimodal LLMs#Chart Understanding#Table Reasoning#Benchmark2026년 6월 1일댓글 수 로딩 중
[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .#Review#Academic Illustration#Visual-Logical Consistency#Benchmark#VQA#Test-Time Scaling#Multimodal Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.#Review#Vision-Language Models#Comparative Reasoning#Subtle Differences#Benchmark#Multi-modal AI#Image Comparison#VQA#Fine-grained Analysis2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification본 논문은 기존 MLLM 평가 방법론의 해석력 부족 과 중요한 능력 격차를 포착하지 못하는 한계 를 해결하고자 합니다. 특히 모델의 고질적인 약점 과 실패 모드 를 자동으로 식별하고 해석하며, 이를 효과적으로 개선 할 수 있는 프레임워크를 구축하는 것을 목표로 합니다.#Review#MLLM#Model Auditing#Capability Gaps#Failure Mode Discovery#Reinforcement Learning#Data Rectification#Counterfactual Generation#VQA2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.#Review#Remote Sensing#Vision-Language Models#Iterative Reasoning#Evidence-Seeking#Socratic Method#Reinforcement Learning#Multi-Agent System#VQA#Grounding2025년 12월 1일댓글 수 로딩 중
[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models본 논문은 대규모 비전-언어 모델(LVLMs)이 다양한 문화적 요소가 혼합된 시각적 장면, 즉 '문화 혼합(culture mixing)' 시나리오를 어떻게 인식하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Vision-Language Models#Culture Mixing#VQA#Synthetic Data Generation#Multicultural Understanding#Model Robustness#Fine-tuning#Cultural Bias2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs본 연구는 VLM이 다단계 시각적 상호작용 및 효과적인 도구 통합 추론에서 겪는 한계를 해결하고자 합니다. 특히, 도구 선택, 호출 및 조율 능력이 부족한 기존 VLM의 문제를 극복하고, 확장 가능한 훈련 환경과 에이전트 학습 전략을 통해 VLM의 도구 통합 시각적 추론 능력 을 체계적으로 향상시키는 것을 목표로 합니다.#Review#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI#VQA#Training Environment#Behavioral Cloning#Policy Optimization2025년 11월 25일댓글 수 로딩 중
[논문리뷰] ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use본 논문은 멀티모달 대규모 언어 모델(MLLM)이 동적 추론, 외부 지식 접근 및 다단계 연산이 필요한 복잡한 작업에서 겪는 한계, 특히 장기적인 VQA 작업 에서의 제한된 전역 계획 과 시각적 맥락 저하 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Agents#Tool-Augmented LLMs#Vision-Guided Reasoning#Long-Horizon Tasks#VQA#Global Planning#Context Preservation#Perceive Tool2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token GenerationMultimodal Large Language Models (MLLMs)의 자동 회귀 토큰 생성 과정에서 시각적 입력이 출력 토큰에 미치는 영향을 설명하고, 언어적 선험 지식과 지각적 증거의 상대적 영향력을 정량화하는 것을 목표로 합니다.#Review#MLLM#Interpretability#Attribution#Token Generation#Black-box Explanation#Hallucination Diagnosis#Multimodality#VQA2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.#Review#Image Captioning#Reinforcement Learning#Verifiable Rewards#LVLMs#VQA#Data Curation#Caption Quality2025년 9월 29일댓글 수 로딩 중
[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs본 논문은 시각 질문 답변(VQA) 태스크에서 Small Vision-Language Models (S-VLMs) 의 성능을 향상시키는 것을 목표로 합니다.#Review#VQA#Small VLMs#Large VLMs#Knowledge Transfer#Pseudo-labeling#Label-Free Learning#Model Parity Alignment#Computational Efficiency2025년 9월 23일댓글 수 로딩 중
[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence본 연구는 의사 전문성에 크게 의존하고 주관적이며 비효율적인 기존 초음파 진단의 한계를 극복하고, 일반적인 VLM(Vision-Language Model) 의 초음파 의료 도메인 지식 부족 문제를 해결하고자 합니다.#Review#Vision-Language Models#Ultrasound Imaging#Medical Diagnosis#Mixture-of-Experts (MoE)#Instruction Tuning#Multimodal AI#Report Generation#VQA2025년 9월 19일댓글 수 로딩 중
[논문리뷰] A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models본 연구는 대규모 시각-언어 모델(LVLM)에서 고해상도 입력 처리 시 발생하는 시각 토큰 폭증으로 인한 비효율성을 해결하고자 합니다.#Review#Large Vision-Language Models (LVLMs)#Visual Token Pruning#Dynamic Compression#GlimpsePrune#Computational Efficiency#VQA#Reinforcement Learning2025년 8월 5일댓글 수 로딩 중
[논문리뷰] SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs텍스트 전용 대규모 언어 모델(LLMs)이 시각 정보를 직접 처리할 수 없는 한계를 극복하고, 멀티모달 추론 능력을 효율적이고 비용 효과적으로 활용할 수 있도록 하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Text-only LLM#Agentic AI#Information Flow#VQA#Structured Intermediate Representation#Decoupled Architecture#Tool Use2025년 10월 30일댓글 수 로딩 중
[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models본 논문은 제한된 레이블 데이터와 풍부한 비레이블 이미지를 활용하여 Multimodal Large Language Models (MLLMs) 가 의료 영상이나 기술 콘텐츠와 같은 Out-of-Distribution (OOD) 특화 도메인 의 시각 질의응답 (VQA) 태스크에 효율적으로 적응하도록 하는 것을 목표로 합니다.#Review#Multimodal LLM#OOD Adaptation#Label Efficiency#VQA#Semi-Supervised Learning#Neuron Distillation#Pseudo Labeling#Medical Imaging2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training본 논문은 텍스트 전용 사전 훈련을 통해 대규모 언어 모델(LLM)이 시각적 세계에 대해 습득하는 내재된 시각적 사전 지식(visual priors)의 구조와 기원 을 체계적으로 밝히는 것을 목표로 합니다.#Review#LLM Visual Priors#Language Pre-training#Multimodal LLM#Data Mixture Optimization#Reasoning Prior#Perception Prior#VQA#MLE-Bench2025년 10월 1일댓글 수 로딩 중