[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes현재 시각 언어 모델(VLM) 벤치마크가 밀집된 고해상도 장면 에서의 시각적 이해 능력을 과대평가하고 있다는 문제 인식을 바탕으로, 모델의 세밀한 시각적 이해 능력 과 복잡한 추론 능력 을 정확하게 평가할 수 있는 새로운 VQA 벤치마크를 제시하는 것이 목표입니다.#Review#Visual Question Answering#Multimodal Models#Dense Scenes#Fine-Grained Perception#Benchmark#Error Analysis#Counting#OCR2025년 10월 1일댓글 수 로딩 중