[논문리뷰] Can Vision-Language Models Solve the Shell Game?Vision-Language Models (VLMs)는 전반적인 비디오 이해 및 추론에서 뛰어난 성능을 보였지만, 시간 경과에 따른 개체 추적(Visual Entity Tracking)과 같은 저수준 인식 능력에서는 중요한 병목 현상을 겪고 있습니다.#Review#Visual Entity Tracking#Shell Game#Vision-Language Models (VLMs)#VET-Bench#Spatiotemporal Grounded Chain-of-Thought (SGCoT)#NC1-complete#Transformer-based VLMs2026년 3월 15일댓글 수 로딩 중