[논문리뷰] Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language ModelsMultimodal Large Language Models (MLLMs)는 Offline Video Understanding Task에서 뛰어난 성능을 보였지만, Live Broadcasting, Monitoring, Robotic Assistants와 같이 continuously arriving video stream에 대한 Online Multi-turn Interaction에서는 약점을 드러냅니다.#Review#Streaming Video Reasoning#Multi-Turn Interaction#Segment-Level Memory#Causal Mask#Positional Encoding#Dual KV Cache#Multimodal Large Language Models2026년 3월 15일댓글 수 로딩 중
[논문리뷰] Behind RoPE: How Does Causal Mask Encode Positional Information?본 논문은 Transformer 디코더 에서 Rotary Positional Embeddings (RoPE) 와 같은 명시적인 위치 인코딩 외에 인과 마스크(causal mask) 가 어떻게 위치 정보를 인코딩하는지 그 메커니즘을 규명하는 것을 목표로 합니다.#Review#Transformer Decoder#Causal Mask#Positional Encoding#RoPE#Attention Mechanism#Length Generalization#Large Language Models2025년 9월 26일댓글 수 로딩 중