#VET-Bench

1개의 포스트

[논문리뷰] Can Vision-Language Models Solve the Shell Game?

Vision-Language Models (VLMs)는 전반적인 비디오 이해 및 추론에서 뛰어난 성능을 보였지만, 시간 경과에 따른 개체 추적(Visual Entity Tracking)과 같은 저수준 인식 능력에서는 중요한 병목 현상을 겪고 있습니다.

#Review #Visual Entity Tracking #Shell Game #Vision-Language Models (VLMs)#VET-Bench #Spatiotemporal Grounded Chain-of-Thought (SGCoT)#NC1-complete #Transformer-based VLMs

2026년 3월 15일