[논문리뷰] Benchmarking Visual State Tracking in Multimodal Video Understanding본 논문은 최신 Multimodal Large Language Models (MLLMs)가 비디오의 지속적인 역동성을 이해하고 상태를 추적하는 능력, 즉 Visual State Tracking 능력이 결여되어 있다는 점을 지적한다 .#Review#Multimodal Large Language Models#Video Understanding#Visual State Tracking#Benchmark#Visual Perception#Agentic Frameworks2026년 6월 2일댓글 수 로딩 중