[논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding
링크: 논문 PDF로 바로 열기
메타데이터
저자: Hesong Wang, Xin Jin, Lu Lu, Chenhaowen Li, Jian Chen, Qiang Liu, Huan Wang
1. Key Terms & Definitions (핵심 용어 및 정의)
- TTFT (Time-to-First-Token): 사용자의 입력 이후 첫 번째 토큰이 생성될 때까지 걸리는 대기 시간으로, 비디오 이해 모델의 실시간 배포를 결정짓는 핵심 지표입니다.
- Vision Encoder: 영상 데이터를 임베딩 공간으로 변환하는 모델의 첫 단계로, 연구 결과 본 논문에서 지연 시간의 가장 큰 병목 구간으로 밝혀졌습니다.
- Attention Sink: 특정 spatial 위치의 토큰들이 비디오 프레임 전체에 걸쳐 비정상적으로 높은 attention score를 유지하는 현상으로, 기존의 Top-K 기반 압축 방식에서 편향을 유발합니다.
- Training-free: 모델의 파라미터를 추가로 학습시키지 않고, 추론 과정에서 토큰 압축 기법을 즉시 적용하는 방식을 의미합니다.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 Video-LLM의 추론 효율성을 저해하는 가장 큰 병목 현상이 LLM 자체가 아닌 Vision Encoder 단계에 집중되어 있다는 점을 지적한다. 기존의 토큰 압축 연구들은 주로 LLM 내부나 그 이후 단계의 처리에 집중하여 TTFT를 효과적으로 줄이지 못했다 [Figure 3]. 많은 연구가 사용하고 있는 Top-K 방식은 특정 Attention Sink 토큰들로 인해 공간 정보의 편향을 발생시켜 압축 성능을 저해한다 [Figure 2]. 따라서 저자들은 비디오 이해를 위한 빠르고 효율적인 추론을 위해, 인코더 내부 단계부터 근본적으로 시각 토큰 수를 줄이는 새로운 접근 방식이 필요함을 강조한다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 연구에서 제안하는 EarlyTom은 크게 두 가지 단계로 구성된 training-free 프레임워크를 통해 추론 속도를 극대화한다 [Figure 4]. 첫 번째 단계인 Inner Vision Encoder Frame Merging은 비디오 스트림을 의미적 유사도에 따라 세그먼트로 나누고, 중복되는 프레임들을 가중치 기반으로 병합하여 초기 단계부터 토큰 수를 획기적으로 줄인다. 두 번째 단계인 Decoupled Spatial Token Selection은 영상을 동적(Dynamic) 프레임과 정적(Static) 프레임으로 분류한 뒤, 각각에 최적화된 Top-K 및 로컬 윈도우 선택 전략을 적용하여 Attention Sink의 영향력을 상쇄하며 공간 정보를 효율적으로 보존한다.
실험 결과, EarlyTom은 LLaVA-OneVision-7B 모델에서 기존 방식 대비 2.65배 빠른 TTFT를 기록하였으며, FLOPs를 최대 61%까지 절감하는 성과를 거두었다 [Table 1]. 이러한 효율성에도 불구하고, 다양한 비디오 벤치마크(MVBench, EgoSchema 등)에서 full-token baseline과 대등한 수준의 정확도를 유지함으로써 성능과 속도 간의 최적의 Pareto frontier를 달성했다.
4. Conclusion & Impact (결론 및 시사점)
본 논문은 Video-LLM의 인코더 내부 압축을 통해 TTFT의 근본적인 병목을 해결하는 EarlyTom 프레임워크를 제안한다. 이 연구는 기존의 후반부 중심 압축 전략에서 벗어나, 시스템-알고리즘 공동 설계를 통해 실질적인 추론 가속화를 구현했다는 점에서 학술적 의의가 크다. 이러한 성과는 연산 자원이 제한된 실시간 비디오 이해 환경 및 대규모 서비스 배포에 있어 Video-LLM의 실용성을 크게 향상시킬 것으로 기대된다.
Part 2: 중요 Figure 정보

Figure 3 — TTFT 지연 시간 구성 분석

Figure 4 — EarlyTom 전체 파이프라인
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] LiteFrame: Efficient Vision Encoders Unlock Frame Scaling in Video LLMs
- [논문리뷰] SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories
- [논문리뷰] PARCEL: Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding
- [논문리뷰] One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation
- [논문리뷰] Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving
Review 의 다른글
- 이전글 [논문리뷰] Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas
- 현재글 : [논문리뷰] EarlyTom: Early Token Compression Completes Fast Video Understanding
- 다음글 [논문리뷰] GenClaw: Code-Driven Agentic Image Generation
댓글