#Spatio-Temporal Scoring

1개의 포스트

[논문리뷰] Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Video VLM은 방대한 수의 프레임을 인코딩하고, 각 프레임이 Vision Transformer (ViT)에 의해 수백 개의 Patch Token으로 분해되면서 막대한 계산 비용을 발생시킵니다.

#Review #Token Pruning #Video-Language Models (VLMs)#Computational Efficiency #Spatio-Temporal Scoring #Vision Transformers (ViT)#Large Language Models (LLM)#End-to-End Training

2026년 3월 18일