#Segment-Level Memory

1개의 포스트

[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Multimodal Large Language Models (MLLMs)는 Offline Video Understanding Task에서 뛰어난 성능을 보였지만, Live Broadcasting, Monitoring, Robotic Assistants와 같이 continuously arriving video stream에 대한 Online Multi-turn Interaction에서는 약점을 드러냅니다.

#Review #Streaming Video Reasoning #Multi-Turn Interaction #Segment-Level Memory #Causal Mask #Positional Encoding #Dual KV Cache #Multimodal Large Language Models

2026년 3월 15일