[논문리뷰] FlashMemory-DeepSeek-V4: Lightning Index Ultra-Long Context via Lookahead Sparse Attention본 논문은 초장기 context 처리 시 발생하는 KV 캐시의 메모리 병목 현상을 해결하고자 합니다 . 기존 LLM은 모든 historical context를 GPU 메모리에 상주시켜야 하므로, context 길이가 길어짐에 따라 GPU 메모리 요구량이 선형적으로 증가하는 치명적인 한계가 있습니다.#Review#Large Language Models#Ultra-Long Context#Sparse Attention#KV Cache Compression#Lookahead Sparse Attention#Neural Memory Indexer#Decoupled Training2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Linear Scaling Video VLMs for Long Video Understanding본 논문은 현대의 Video VLM이 긴 비디오나 실시간 스트리밍 작업을 처리할 때 겪는 이차 시간(quadratic time) 복잡도 문제를 해결하는 것을 목표로 합니다.#Review#Video VLM#Long-video Understanding#Linear Scaling#StateKV#KV Cache Compression#Attention Approximation2026년 5월 31일댓글 수 로딩 중
[논문리뷰] KVServe: Service-Aware KV Cache Compression for Communication-Efficient Disaggregated LLM Serving본 논문은 Disaggregated LLM Serving 환경에서 KV cache 통신이 전체 end-to-end 지연시간의 최대 60%를 차지하는 주요 병목 현상을 해결하고자 한다 .#Review#LLM Serving#KV Cache Compression#Disaggregated Inference#Bayesian Optimization#Service-Aware Control2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Forcing-KV: Hybrid KV Cache Compression for Efficient Autoregressive Video Diffusion Models본 논문은 AR 비디오 확산 모델에서 발생하는 과도한 어텐션 연산 복잡도와 메모리 오버헤드 문제를 해결하고자 합니다. 기존 모델들은 생성된 프레임이 축적될수록 전체 KV Cache를 참조하도록 강제되어, 고해상도 및 장기 비디오 생성 시 효율성이 극도로 저하되는 한계가 있습니다 .#Review#Autoregressive Video Diffusion#KV Cache Compression#Attention Head Specialization#Inference Efficiency#Video Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M TokensLarge Language Models (LLMs)는 다양한 분야에서 뛰어난 능력을 보였지만, 수백만 토큰 규모의 장기적이고 세밀한 기억(long-term, fine-grained memory retention)을 처리하는 데에는 여전히 큰 어려움에 직면해 있습니다.#Review#Memory Sparse Attention#Long-Context LLMs#Efficient Memory#End-to-End Trainable#KV Cache Compression#Rotary Positional Embedding#Multi-hop Reasoning#Scalability2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Which Heads Matter for Reasoning? RL-Guided KV Cache Compression추론(reasoning) 기반 대규모 언어 모델(LLM)은 긴 CoT(Chain-of-Thought) 생성을 통해 막대한 KV(Key-Value) 캐시 오버헤드를 발생시킵니다.#Review#KV Cache Compression#Large Language Models (LLMs)#Reinforcement Learning (RL)#Reasoning Models#Attention Heads#Chain-of-Thought (CoT)#Memory Efficiency2025년 10월 13일댓글 수 로딩 중
[논문리뷰] GUI-KV: Efficient GUI Agents via KV Cache with Spatio-Temporal Awareness본 논문은 Vision-Language Model (VLM) 기반 GUI 에이전트가 고해상도 스크린샷 시퀀스 및 장기 작업을 처리할 때 발생하는 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#GUI Agents#KV Cache Compression#Spatio-Temporal Awareness#Vision-Language Models#Efficiency#Attention Sparsity#QR Decomposition2025년 10월 2일댓글 수 로딩 중