[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.#Review#Streaming Video LLMs#Token Compression#ViT Encoding#LLM Prefilling#Causal Compression#Caching#Pruning#Low-latency2025년 12월 1일댓글 수 로딩 중