#VQA Benchmark

2개의 포스트

[논문리뷰] MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs

기존 Large Vision-Language Models (LVLMs) 강건성 벤치마크들이 환각이나 오해의 소지가 있는 텍스트 입력에만 집중하고, 시각적 이해 평가에서 오해의 소지가 있는 시각적 입력 을 간과하는 문제를 해결하는 것이 목표입니다.

#Review #LVLM Robustness #Misleading Visual Inputs #VQA Benchmark #Visual Perception #Visual Reasoning #MVI-Sensitivity #Multimodal AI

2025년 11월 18일

[논문리뷰] NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

본 논문은 Vision-Language Models (VLMs)의 실제 환경 내 로봇 내비게이션 능력 을 평가하기 위한 새로운 벤치마크 NaviTrace를 제안합니다.

#Review #Vision-Language Models #Embodied Navigation #VQA Benchmark #Robotic Navigation #Semantic-aware Score #Dynamic Time Warping #Real-world Scenarios

2025년 11월 9일