#LLM Prefilling

1개의 포스트

[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

스트리밍 비디오 대규모 언어 모델(VideoLLMs)의 실시간 배포 시 발생하는 높은 연산 비용, 특히 Vision Transformer(ViT) 인코딩 단계 와 LLM 사전 채우기(pre-filling) 단계 의 병목 현상을 해결하여 효율적인 비디오 이해를 가속화하는 것이 목표입니다.

#Review #Streaming Video LLMs #Token Compression #ViT Encoding #LLM Prefilling #Causal Compression #Caching #Pruning #Low-latency

2025년 12월 1일