본문으로 건너뛰기

[논문리뷰] CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

링크: 논문 PDF로 바로 열기

The paper "CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management" by Tao Chen, Kangcong Li, Jianjian Cao, Xudong Tan, and Chao Wang discusses a novel approach to address the challenges of streaming video understanding in Multimodal Large Language Models (MLLMs).

Here's the detailed summary:

메타데이터

저자: Chao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, and Tao Chen

Part 1: 요약 본문

1. Key Terms & Definitions (핵심 용어 및 정의)

  • Multimodal Large Language Models (MLLMs) : 텍스트뿐만 아니라 비디오와 같은 다양한 양식의 데이터를 이해하고 처리할 수 있는 대규모 언어 모델. 본 논문에서는 스트리밍 비디오 이해에 MLLM을 적용하는 데 초점을 맞춘다.
  • Out-of-Memory (OOM) : 제한된 GPU 메모리 용량으로 인해 모델이 더 이상 데이터를 처리할 수 없어 발생하는 오류 상태. 스트리밍 비디오의 무한한 길이로 인해 MLLM에서 빈번하게 발생한다.
  • Catastrophic Forgetting : MLLM이 새로운 정보를 학습하거나 처리하는 과정에서 이전에 학습했던 중요한 정보나 컨텍스트를 잊어버리는 현상. 특히 긴 스트리밍 비디오 처리 시 기존 정보를 유지하지 못하고 발생하는 문제이다.
  • Curvature Score : Latent feature manifold 상에서 비디오 프레임 feature trajectory의 변화율을 기하학적으로 측정하는 지표. 이 점수는 semantic transition의 강도를 나타내며, high-curvature regions은 critical global semantic transition에 해당한다.
  • Hierarchical Visual Memory Management (HVMM) : Curvature Score와 동적 K-Sigma threshold를 활용하여 들어오는 비디오 프레임을 Clear Memory (고해상도)와 Blurred Memory (저해상도)로 계층적으로 분류하고 관리하는 시스템. 제한된 token budget 내에서 중요한 시각 정보를 효율적으로 유지한다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

Multimodal Large Language Models (MLLMs)는 오프라인 비디오 이해에서 뛰어난 성능을 보였으나, 스트리밍 비디오 시나리오에서는 본질적인 병목 현상에 직면한다. 스트리밍 비디오는 이론적으로 무한한 길이를 가지므로, visual token의 선형적인 폭발을 초래하여 GPU 메모리 제약 하에 Out-of-Memory (OOM) 오류 또는 naive truncation 전략으로 인한 Catastrophic Forgetting 문제를 야기한다. 기존의 visual information retention 및 memory management 방법들은 주로 uniform sampling, low-level physical metrics, 또는 passive cache eviction에 의존한다. 그러나 이러한 전략들은 내재적인 semantic awareness가 부족하여 contextual coherence를 방해하고, 일시적이지만 critical한 semantic transition을 blurring 시킬 수 있는 한계점을 가지고 있다. 이 연구는 이러한 한계점을 극복하고, 고정된 memory budget 내에서 long-term streaming video understanding을 달성하기 위해 visual memory를 지속적이고 동적으로 관리하는 핵심 문제를 해결하고자 한다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 CurveStream 이라는 training-free, curvature-aware hierarchical visual memory management 프레임워크를 제안한다. 이 방법론은 연속적인 feature trajectories 상에서 high-curvature regions이 critical global semantic transition과 밀접하게 연관된다는 핵심 관찰에서 출발한다. CurveStream은 Curvature-Aware Scorer (CAS) 를 사용하여 real-time semantic intensity를 평가하고, online K-Sigma dynamic threshold 를 통합하여 엄격한 token budget 하에 프레임을 Clear Memory 및 Fuzzy Memory 상태로 적응적으로 라우팅한다.

CAS는 frozen visual encoder에서 추출된 global feature representation을 활용하여, 인접 프레임 간의 first-order Motion Variation 과 feature displacement vectors 간의 second-order Geometric Curvature 를 융합하여 최종 Curvature Score 를 산출한다. HVMM (Hierarchical Visual Memory Management)은 이 Curvature Score 시퀀스를 기반으로 Exponential Moving Average (EMA)를 통해 online으로 manifold distribution parameters (μt, σt)를 업데이트하고, 이를 통해 동적인 dual thresholds (g1, g2)를 생성한다. 이 threshold에 따라 프레임은 Clear Memory (high-resolution), Blurred Memory (low-resolution), 또는 Discard (폐기) 중 하나의 상태로 할당된다. 메모리 용량이 초과되면 First-In-First-Out (FIFO) 정책으로 가장 오래된 토큰을 제거하여 메모리 footprint를 일정하게 유지한다.

CurveStream은 다양한 temporal scale의 벤치마크 (StreamingBench, OVOBench, EgoSchema, VideoMME, MVBench)에서 평가되었다. 특히, training-free 패러다임에서 CurveStream은 StreamingBench에서 10.69% 의, OVOBench에서 13.58% 의 절대적인 성능 향상을 달성하며 SOTA를 수립했다. 예를 들어, Qwen2.5-VL-7B baseline에 통합되었을 때 StreamingBench에서 84.00%, OVOBench에서 73.48%의 정확도를 기록했다. 또한, CurveStream은 Qwen3-VL 시리즈의 4B, 8B, 32B 등 다양한 parameter scale의 MLLM에서도 일관되게 8.7%에서 12.4%에 이르는 상당한 성능 향상을 보였다. 이러한 결과는 CurveStream이 OOM 문제를 효과적으로 완화하고, streaming 시나리오에서 다양한 MLLM의 성능을 약 10% 향상시키며 광범위한 적용 가능성을 입증함을 보여준다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 MLLM의 스트리밍 비디오 이해를 저해하는 고질적인 token explosion 및 Out-of-Memory (OOM) 병목 현상을 해결하기 위해 CurveStream 이라는 training-free 계층적 메모리 관리 프레임워크를 제안한다. Feature trajectory의 high-curvature regions이 critical semantic transition과 일치한다는 기하학적 통찰력을 기반으로, CurveStream은 real-time Curvature Score와 online K-Sigma threshold를 통합한다. 이 동적 메커니즘은 들어오는 프레임을 Clear Memory 또는 Fuzzy Memory 상태로 적응적으로 라우팅하여, MLLM이 엄격한 token budget 내에서 필수적인 long-term visual context를 유지하도록 보장한다.

광범위한 실험을 통해 이 경량의 model-agnostic 모듈은 폭넓은 architectural compatibility를 보여주며, 기존 baseline 대비 일관되게 상당한 성능 향상을 달성한다. CurveStream은 StreamingBench 및 OVOBench와 같은 challenging 벤치마크에서 새로운 State-of-the-Art (SOTA) 결과를 수립함으로써, continuous video perception을 위한 강력한 솔루션을 제공한다. 이 연구는 향후 자율 주행 및 로봇 조작과 같이 real-time 적응형 추론 및 의사 결정이 중요한 embodied AI 애플리케이션으로 이 기하학적 메모리 패러다임을 확장하는 데 기여할 것이다.

Figure 1

Figure 2

Figure 3

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글