[논문리뷰] Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing최근 Multi-modal Large Language Models (MLLMs)의 발전은 일반 목적의 비디오 이해 분야에서 상당한 진전을 가져왔습니다. 그러나 이러한 모델들은 long-form, high-resolution 비디오를 처리하는 데 심각한 어려움을 겪고 있습니다.#Review#Video Understanding#Multi-modal Large Language Models (MLLMs)#Vision Transformers (ViTs)#Autoregressive Gazing#Token Reduction#Multi-scale Patches#High-Resolution Video#Long-Form Video2026년 3월 24일댓글 수 로딩 중