#VQA

15개의 포스트

[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .

#Review #Academic Illustration #Visual-Logical Consistency #Benchmark #VQA #Test-Time Scaling #Multimodal Evaluation

2026년 4월 2일

[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

arXiv에 게시된 'VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language Models #Comparative Reasoning #Subtle Differences #Benchmark #Multi-modal AI #Image Comparison #VQA #Fine-grained Analysis

2026년 3월 10일

[논문리뷰] Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

arXiv에 게시된 'Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification' 논문에 대한 자세한 리뷰입니다.

#Review #MLLM #Model Auditing #Capability Gaps #Failure Mode Discovery #Reinforcement Learning #Data Rectification #Counterfactual Generation #VQA

2025년 12월 18일

[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images

Xinran He이 arXiv에 게시한 'Asking like Socrates: Socrates helps VLMs understand remote sensing images' 논문에 대한 자세한 리뷰입니다.

#Review #Remote Sensing #Vision-Language Models #Iterative Reasoning #Evidence-Seeking #Socratic Method #Reinforcement Learning #Multi-Agent System #VQA #Grounding

2025년 12월 1일

[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

Na Min An이 arXiv에 게시한 'World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language Models #Culture Mixing #VQA #Synthetic Data Generation #Multicultural Understanding #Model Robustness #Fine-tuning #Cultural Bias

2025년 11월 30일

[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs

arXiv에 게시된 'Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Tool-Integrated Reasoning (TIR)#Agentic AI #VQA #Training Environment #Behavioral Cloning #Policy Optimization

2025년 11월 25일

[논문리뷰] ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use

Guanting Dong이 arXiv에 게시한 'ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Agents #Tool-Augmented LLMs #Vision-Guided Reasoning #Long-Horizon Tasks #VQA #Global Planning #Context Preservation #Perceive Tool

2025년 11월 9일

[논문리뷰] SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

Jiaxuan You이 arXiv에 게시한 'SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal Reasoning #Text-only LLM #Agentic AI #Information Flow #VQA #Structured Intermediate Representation #Decoupled Architecture #Tool Use

2025년 10월 30일

[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models

Yu-Chiang Frank Wang이 arXiv에 게시한 'LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Multimodal LLM #OOD Adaptation #Label Efficiency #VQA #Semi-Supervised Learning #Neuron Distillation #Pseudo Labeling #Medical Imaging

2025년 10월 6일

[논문리뷰] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

Koustuv Sinha이 arXiv에 게시한 'Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Visual Priors #Language Pre-training #Multimodal LLM #Data Mixture Optimization #Reasoning Prior #Perception Prior #VQA #MLE-Bench

2025년 10월 1일

[논문리뷰] Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation

Shiming Liu이 arXiv에 게시한 'Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation' 논문에 대한 자세한 리뷰입니다.

#Review #MLLM #Interpretability #Attribution #Token Generation #Black-box Explanation #Hallucination Diagnosis #Multimodality #VQA

2025년 9월 29일

[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

arXiv에 게시된 'CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Image Captioning #Reinforcement Learning #Verifiable Rewards #LVLMs #VQA #Data Curation #Caption Quality

2025년 9월 29일

[논문리뷰] When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

Anand Mishra이 arXiv에 게시한 'When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs' 논문에 대한 자세한 리뷰입니다.

#Review #VQA #Small VLMs #Large VLMs #Knowledge Transfer #Pseudo-labeling #Label-Free Learning #Model Parity Alignment #Computational Efficiency

2025년 9월 23일

[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence

Qinghua Huang이 arXiv에 게시한 'EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence' 논문에 대한 자세한 리뷰입니다.

#Review #Vision-Language Models #Ultrasound Imaging #Medical Diagnosis #Mixture-of-Experts (MoE)#Instruction Tuning #Multimodal AI #Report Generation #VQA

2025년 9월 19일

[논문리뷰] A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models

Zuxuan Wu이 arXiv에 게시한 'A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Large Vision-Language Models (LVLMs)#Visual Token Pruning #Dynamic Compression #GlimpsePrune #Computational Efficiency #VQA #Reinforcement Learning

2025년 8월 5일