[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

2026년 3월 15일수정: 2026년 3월 15일

링크: 논문 PDF로 바로 열기

저자: Kang Liu, Yubo Chen, Yupu Hao, Zhuoran Jin, wanglu666

1. Key Terms & Definitions (핵심 용어 및 정의)

Think While Watching (TWW) : 스트리밍 비디오 환경에서 연속적인 Segment-level Memory를 유지하며 Multi-turn Video Reasoning을 수행하는 Memory-anchored framework.
Memory Erosion : 기존 Interleaved Perception-Generation 방식에서 연속적인 비디오 스트림 처리 중 초기 Memory가 잊혀져 Long-range Dependency 모델링 능력이 저하되는 현상.
Serialization Bottleneck : Interleaved Perception-Generation 방식에서 Text Decoding이 Video Ingestion을 Block하여 Latency를 증가시키고 시스템 Responsiveness를 저해하는 현상.
Segment-level Streaming Causal Mask : 스트리밍 Reasoning 과정에서 strict causality를 강제하기 위해 미래 Segment 정보에 대한 접근을 차단하는 Attention Mask.
Streaming Positional Encoding (MRoPE) : Multimodal Rotary Positional Embeddings를 기반으로 Input과 Output 스트림의 Positional Encoding을 Decouple하여 Parallel Reasoning을 지원하는 방식.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

Multimodal Large Language Models (MLLMs)는 Offline Video Understanding Task에서 뛰어난 성능을 보였지만, Live Broadcasting, Monitoring, Robotic Assistants와 같이 continuously arriving video stream에 대한 Online Multi-turn Interaction에서는 약점을 드러냅니다. 기존의 스트리밍 접근 방식은 Interleaved Perception-Generation 패러다임을 채택하는데, 이는 Perception과 Generation의 동시성을 방해하고 스트림이 길어질수록 Memory Decay를 유발하여 Long-range Dependency 모델링을 저하시킵니다. 특히, Memory Erosion [Figure 1a]은 초기 Memory를 잊게 만들어 후속 질문에 대한 응답을 어렵게 하며, Serialization Bottleneck [Figure 1c]은 Text Decoding이 Video Ingestion을 멈추게 하여 시스템의 Responsiveness를 저해합니다. 이러한 한계점들은 스트리밍 비디오 환경에서 MLLM의 실시간 Multi-turn Interaction 능력을 심각하게 제한합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Think While Watching (TWW) 이라는 Memory-anchored Streaming Video Reasoning Framework를 제안하여, 지속적인 Segment-level Memory를 통해 Multi-turn Interaction을 지원합니다 [Figure 1b]. 이 방법론은 크게 세 가지 축으로 구성됩니다. 첫째, Memory Erosion 을 완화하기 위해 각 비디오 Segment St가 도착할 때마다 Memory Note mt를 작성하여 Memory Bank에 추가하고, 질문 qr이 들어오면 Attention Mechanism을 통해 관련 Note를 Implicit하게 통합하여 답변을 생성합니다. 둘째, Serialization Bottleneck 을 해결하기 위해 Inference 시 Dual KV Cache를 사용하여 Ingestion과 Decoding을 Decouple하며, Input과 Output 스트림에 Independent Positional Encoding을 할당하여 Input-output Parallelism을 가능하게 합니다. Inference 시에는 Adaptive Attention Backend를 사용하여 Standard Causal Mask에는 Flash Attention 을, Custom Streaming Mask에는 Memory-efficient Attention을 적용하여 Inference 속도를 최적화합니다. 셋째, Three-stage Training Strategy와 Stage-matched CoT Dataset을 구축하여, Segment-level Streaming Causal Mask 와 Streaming Positional Encoding 을 통해 스트리밍 Reasoning 전반에 걸쳐 strict causality를 강제합니다 [Figure 2a, 2b].

실험 결과, 제안된 TWW 방법론은 Qwen3-VL 기반 모델에서 단일 라운드(Single-round) 정확도를 StreamingBench 에서 2.6% , OVO-Bench 에서 3.79% 향상시켰습니다 [Table 2, Table 3]. 특히 멀티 라운드(Multi-round) 프로토콜에서는 Performance를 유지하면서 Output Tokens를 56% 절감하는 효율성을 보였습니다 [Table 2, Table 3]. 또한, TTFT (Time-To-First-Token) 측면에서는 Batch Thinking Baseline 대비 92.6% 감소를 달성하며 실시간 응답성을 크게 개선했습니다 [Table 6]. Ablation Study를 통해 Memory Bank의 중요성이 확인되었는데, Memory Bank가 없을 경우 정확도가 57.40% 에서 52.35% 로 하락했습니다 [Table 5].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 Multi-turn Interaction과 연속적인 스트리밍 비디오 Reasoning을 위한 Think While Watching (TWW) Framework를 성공적으로 제안했습니다. 이 Framework는 Segment-level Memory Notes를 Persistent하게 유지하고, Segment-level Streaming Causal Mask와 Streaming Positional Encoding을 통해 Strict Causality를 강제하며, Dual KV Cache Pipeline과 Adaptive Attention Backend를 활용하여 Practical한 Real-time Deployment를 가능하게 합니다. StreamingBench 와 OVO-Bench 에서의 실험 결과는 제안된 방법론이 Online Accuracy를 일관되게 향상시키면서도 강력한 Efficiency를 유지함을 입증했습니다. 이 연구는 Multimodal Large Language Models (MLLMs)가 스트리밍 환경에서 더욱 능동적이고 실시간적인 Multi-turn Interaction을 수행할 수 있도록 하는 중요한 발전이며, 향후 Multimodal Assistant 및 Intelligent Agent 개발에 크게 기여할 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Steve-Evolving: Open-World Embodied Self-Evolution via Fine-Grained Diagnosis and Dual-Track Knowledge Distillation
현재글 : [논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models
다음글 [논문리뷰] V-Bridge: Bridging Video Generative Priors to Versatile Few-shot Image Restoration