#MIMIC

1개의 포스트

[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure Modes

본 논문은 최신 대규모 시각 언어 모델(LVLM) 이 다중 이미지 환경에서 보여주는 한계와 실패 원인을 체계적으로 분석하는 것을 목표로 합니다. 특히 모델이 이미지 간 정보를 효과적으로 집계하고, 여러 개념을 동시에 추적하며, 시각적 방해 요소에 대해 얼마나 강건한지를 평가하여 근본적인 약점을 식별하고자 합니다.

#Review #Vision Language Models #Multi-Image Understanding #Failure Analysis #Evaluation Benchmark #Attention Mechanism #Fine-tuning #MIMIC

2026년 1월 18일