[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure Modes본 논문은 최신 대규모 시각 언어 모델(LVLM) 이 다중 이미지 환경에서 보여주는 한계와 실패 원인을 체계적으로 분석하는 것을 목표로 합니다. 특히 모델이 이미지 간 정보를 효과적으로 집계하고, 여러 개념을 동시에 추적하며, 시각적 방해 요소에 대해 얼마나 강건한지를 평가하여 근본적인 약점을 식별하고자 합니다.#Review#Vision Language Models#Multi-Image Understanding#Failure Analysis#Evaluation Benchmark#Attention Mechanism#Fine-tuning#MIMIC2026년 1월 18일댓글 수 로딩 중