[논문리뷰] Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction본 논문은 현대의 MLLM이 실시간 환경에서의 상호작용 능력을 평가할 수 있는 표준화된 벤치마크와 평가 방법론이 부족하다는 문제점을 지적합니다.#Review#Multimodal Large Language Models#Real-time Duplex Interaction#Streaming Video Understanding#Benchmark#Proactive Interaction2026년 5월 19일댓글 수 로딩 중
[논문리뷰] AURA: Always-On Understanding and Real-Time Assistance via Video Streams본 논문은 기존 VideoLLMs 가 대부분 오프라인 분석에 최적화되어 있어, 실시간으로 변화하는 비디오 스트림에 대한 연속적이고 즉각적인 대응에 한계가 있다는 문제점을 해결하고자 합니다.#Review#VideoLLMs#Streaming Video Understanding#End-to-End#Context Management#Proactive Response#Real-Time Inference2026년 4월 6일댓글 수 로딩 중
[논문리뷰] A Simple Baseline for Streaming Video Understanding본 연구에서 제안하는 SimpleStream은 추가적인 학습이나 별도의 메모리 구조 없이, 오직 마지막 $N$개의 프레임을 오프-더-셸프 VLM에 전달하는 최소주의적 추론 정책을 채택합니다 . 저자들은 OVO-Bench와 StreamingBench를 통해 13개의 주요 온라인 및 오프라인 비디오 LLM 베이스라인과 성능을 비교하였습니다.#Review#Streaming Video Understanding#Video LLM#Simple Baseline#Perception-Memory Trade-off#OVO-Bench2026년 4월 5일댓글 수 로딩 중
[논문리뷰] StreamingClaw Technical ReportEmbodied Intelligence, AI Hardware, Autonomous Driving, Intelligent Cockpits와 같은 Applications은 Real-time Perception–Decision–Action Closed Loop에 크게 의존하며, 이는 Real-time Streaming Video Understanding에 대한 엄격한 요구사항을 부과한다.#Review#Streaming Video Understanding#Embodied Intelligence#Multi-agent Systems#Long-term Memory#Proactive Interaction#Real-time Inference#OpenClaw2026년 3월 25일댓글 수 로딩 중
[논문리뷰] CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory ManagementMultimodal Large Language Models (MLLMs)는 오프라인 비디오 이해에서 뛰어난 성능을 보였으나, 스트리밍 비디오 시나리오에서는 본질적인 병목 현상에 직면한다.#Review#Streaming Video Understanding#MLLMs#Memory Management#Curvature Score#Hierarchical Visual Memory#Catastrophic Forgetting2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously온라인 Video Large Language Models (VideoLLMs) 는 스트리밍 시각 입력(streaming visual inputs)을 해석하고 실시간으로 응답하는 데 필수적이며, 특히 Embodied Intelligence와 상호작용형 AI 어시스턴트에서 중요하다.#Review#Streaming Video Understanding#VideoLLMs#Chain-of-Thought (CoT)#Real-time AI#Reinforcement Learning#Knowledge Graphs#Streaming Thinking#Low Latency2026년 3월 15일댓글 수 로딩 중
[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.#Review#Streaming Video Understanding#KV Cache Management#Hierarchical Memory#MLLMs#Low Latency#Training-free#Memory Efficiency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Streaming Video Instruction Tuning이 논문은 실시간 비디오 스트림을 이해하고 동적인 지시에 반응하는 일반 목적의 대화형 AI 어시스턴트인 Streamo 를 개발하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Large Language Models (LLMs)#Instruction Tuning#Multi-task Learning#Real-time AI Assistant#Temporal Reasoning#Focal Loss#Video Question Answering2025년 12월 24일댓글 수 로딩 중
[논문리뷰] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos본 연구는 대규모 언어 모델(MLLMs)이 스트리밍 비디오 환경에서 인간의 시선(gaze) 신호를 활용하여 시간적 추론 및 선제적 이해를 얼마나 효과적으로 수행하는지 평가하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Gaze-Guided AI#Temporal Reasoning#Proactive AI#MLLMs#Eye Tracking#Benchmark#Human-Computer Interaction2025년 12월 1일댓글 수 로딩 중