[논문리뷰] A Simple Baseline for Streaming Video Understanding

2026년 4월 5일수정: 2026년 4월 5일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Yujiao Shen, Shulin Tian, Jingkang Yang, Ziwei Liu, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

SimpleStream : 복잡한 메모리 모듈이나 학습 과정 없이, 비디오 스트림의 가장 최근 $N$개 프레임만을 VLM에 입력하여 추론하는 경량화된 기본 모델링 방식입니다.
Causal Constraint : 실시간 스트리밍 환경에서 모델이 미래의 프레임을 볼 수 없고, 오직 과거의 관측 정보만을 사용하여 현재의 질의에 응답해야 하는 제약 조건입니다.
Perception-Memory Trade-off : 스트리밍 비디오 이해 모델에서 과거 이력을 저장하기 위해 복잡한 메모리 구조를 도입할 경우, 모델이 현재의 시각적 정보를 인식(Perception)하는 능력이 오히려 저하되는 현상입니다.
OVO-Bench / StreamingBench : 스트리밍 비디오 이해 모델의 성능을 평가하기 위해, 실시간 인식, 과거 기억 추론, 미래 예측 등의 능력을 측정하도록 설계된 표준화된 벤치마크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 최근 스트리밍 비디오 이해 분야에서 복잡한 메모리 메커니즘을 사용하는 것이 필수적이라는 지배적인 가정을 정면으로 반박합니다. 많은 연구들이 긴 스트림을 처리하기 위해 메모리 뱅크, 복잡한 검색 기법, 또는 잠재 상태 압축 등을 도입하고 있으나, 이러한 설계가 실제 성능 향상에 크게 기여하는지 충분히 입증되지 않았습니다. 저자들은 매우 단순한 슬라이딩 윈도우 기반의 최근 정보 활용 방식만으로도 기존의 복잡한 모델들과 동등하거나 더 우수한 성능을 낼 수 있음을 보여줍니다 [Figure 1]. 따라서 이러한 복잡한 구조가 실제 성능 향상을 가져오는지에 대한 근본적인 의문을 제기하며, 단순한 기준(Baseline) 모델과의 정밀한 비교가 필요함을 강조합니다.

Figure 1: SimpleStream 개요 및 성능 비교

Figure 1 — SimpleStream 개요 및 성능 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구에서 제안하는 SimpleStream 은 추가적인 학습이나 별도의 메모리 구조 없이, 오직 마지막 $N$개의 프레임을 오프-더-셸프 VLM에 전달하는 최소주의적 추론 정책을 채택합니다 [Figure 1]. 저자들은 OVO-Bench 와 StreamingBench 를 통해 13개의 주요 온라인 및 오프라인 비디오 LLM 베이스라인과 성능을 비교하였습니다. 실험 결과, SimpleStream 은 Qwen3-VL-8B 를 사용했을 때 OVO-Bench 에서 67.7%의 평균 정확도를 기록하여, 가장 성능이 좋았던 기존 모델인 HERMES (59.2%)를 크게 상회했습니다 [Table 1]. 또한, SimpleStream 은 별도의 메모리 모듈을 사용하지 않음으로써, 비교 대상 모델 중 가장 낮은 수준의 피크 GPU 메모리 사용량과 우수한 Latency (TTFT)를 확보하였습니다 [Figure 3]. 이 결과는 복잡한 메모리 증설보다, 강건한 백본 모델이 최신 시각 정보를 효과적으로 처리하는 것이 실시간 스트리밍 이해에 더 중요함을 시사합니다.

Figure 3: 모델별 GPU 메모리 사용량 비교

Figure 3 — 모델별 GPU 메모리 사용량 비교

4. Conclusion & Impact (결론 및 시사점)

본 논문은 스트리밍 비디오 이해 분야에서 성능 향상을 주장하기 위해 추가된 복잡한 구조들이 항상 최선의 선택은 아님을 입증하였습니다. 연구 결과, 메모리 강화 기법들은 종종 과거 회상 능력은 향상시키지만, 이와 반대로 현재 장면 인식 능력을 저하시키는 Perception-Memory Trade-off 를 초래합니다. 본 연구는 학계에 강력한 단순 베이스라인을 우선적으로 비교 대상으로 삼을 것을 촉구하며, 향후 벤치마크 평가 시 인지 능력과 기억 능력을 명확히 분리하여 보고할 것을 제안합니다. 이 연구는 비디오 모델의 복잡성을 평가하는 새로운 평가 표준을 정립하고, 더 효율적이고 성능이 뛰어난 스트리밍 이해 구조 설계의 방향을 제시하는 데 중요한 시사점을 줍니다.

Figure 6: 인지 비용과 기억 이득 간의 트레이드오프

Figure 6 — 인지 비용과 기억 이득 간의 트레이드오프

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Woosh: A Sound Effects Foundation Model
현재글 : [논문리뷰] A Simple Baseline for Streaming Video Understanding
다음글 [논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents