#Dense Scenes

1개의 포스트

[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes

현재 시각 언어 모델(VLM) 벤치마크가 밀집된 고해상도 장면 에서의 시각적 이해 능력을 과대평가하고 있다는 문제 인식을 바탕으로, 모델의 세밀한 시각적 이해 능력 과 복잡한 추론 능력 을 정확하게 평가할 수 있는 새로운 VQA 벤치마크를 제시하는 것이 목표입니다.

#Review #Visual Question Answering #Multimodal Models #Dense Scenes #Fine-Grained Perception #Benchmark #Error Analysis #Counting #OCR

2025년 10월 1일