[논문리뷰] WorldKV: Efficient World Memory with World Retrieval and Compression본 논문은 Autoregressive 비디오 모델에서 실시간성을 유지하면서도 공간적·시간적 일관성을 갖춘 장기 기억(Long-term memory)을 구현하는 문제를 해결하고자 합니다.#Review#World Models#Autoregressive Video Diffusion#KV Cache Management#World Retrieval#World Compression#Real-time Inference#Long-term Consistency2026년 5월 21일댓글 수 로딩 중
[논문리뷰] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference최근 autoregressive video diffusion models 는 상당한 발전을 이루었지만, 장시간 비디오 생성 시 발생하는 몇 가지 주요 제약 사항들에 직면해 있다.#Review#Autoregressive Video Generation#KV Cache Management#Long Context Inference#Video Diffusion Models#Temporal Consistency#Spatiotemporal Compression#RoPE Adjustment#Dynamic Context Selection2026년 3월 29일댓글 수 로딩 중
[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.#Review#Streaming Video Understanding#KV Cache Management#Hierarchical Memory#MLLMs#Low Latency#Training-free#Memory Efficiency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation기존 비디오 확산 모델의 비효율성 및 고정 길이 제약과 AR 모델의 낮은 품질 및 병렬화 불가능 문제를 극복하고자 합니다.#Review#World Simulation#Video Generation#Block Diffusion#Semi-Autoregressive#KV Cache Management#Inference Engine#Long Video Generation#Performance Optimization2025년 11월 26일댓글 수 로딩 중
[논문리뷰] EpiCache: Episodic KV Cache Management for Long Conversational Question Answering대규모 언어 모델(LLM) 기반의 장기 대화형 질문 답변(LongConvQA) 시스템에서 KV 캐시의 메모리 사용량이 대화 길이에 따라 선형적으로 증가 하는 문제를 해결하는 것이 목표입니다.#Review#KV Cache Management#Long Conversational QA#LLMs#Memory Efficiency#Episodic Clustering#Block Prefill Eviction#Sensitivity-aware Allocation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] StreamingVLM: Real-Time Understanding for Infinite Video Streams본 논문은 near-infinite 비디오 스트림 을 이해하는 데 있어 기존 VLM이 겪는 높은 지연 시간과 메모리 사용량 증가 문제를 해결하는 것을 목표로 합니다.#Review#Video Stream Understanding#Real-Time VLM#Attention Sink#KV Cache Management#Contiguous RoPE#Supervised Fine-tuning#Long-Context Video2025년 10월 13일댓글 수 로딩 중
[논문리뷰] When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling본 논문은 LLM(Large Language Model) 앙상블이 장문(long-form) 생성에서 겪는 불안정성과 비효율성 문제를 해결하는 것을 목표로 합니다.#Review#LLM Ensembling#Token-level Ensembling#Speculative Decoding#Tokenization Mismatch#Probability Sharpening#Long-form Generation#KV Cache Management2025년 10월 21일댓글 수 로딩 중