#KV-Cache

12개의 포스트

[sglang] SGLang의 NIXL 통신 최적화: Prep+Make API 도입을 통한 KV 캐시 전송 성능 향상

NIXL의 Prep+Make API를 활용해 KV 캐시 전송 시 디스크립터 재구성을 방지하여 TTFT를 최대 27% 개선했습니다.

#SGLang #LLM #KV-Cache #Optimization #Distributed-Systems

2026년 6월 2일

[sglang] SGLang의 KV-Canary JIT 커널 도입: 효율적인 KV 캐시 검증 최적화

SGLang에 도입된 KV-Canary JIT 커널을 통해 대규모 언어 모델의 KV 캐시 무결성을 효율적으로 검증하는 방법을 분석합니다.

#SGLang #CUDA #JIT #LLM #KV-Cache

2026년 5월 31일

[vllm] vLLM의 NIXL KV 전송을 활용한 GDN(Gated Delta Net) 모델 지원 최적화

Qwen3.5와 같은 GDN 모델을 위해 NIXL 커넥터의 컨볼루션 상태 레이아웃을 최적화하고 이기종 TP 환경에서의 전송 효율을 개선했습니다.

#vLLM #LLM #GDN #KV-Cache #Distributed-Serving

2026년 5월 14일

[논문리뷰] Shallow Prefill, Deep Decoding: Efficient Long-Context Inference via Layer-Asymmetric KV Visibility

본 논문은 decoder-only 모델에서 long-context 추론 시 발생하는 Prefill 단계의 높은 계산 비용과 Decode 단계의 KV-cache 메모리 대역폭 한계를 해결하고자 합니다.

#Review #Long-Context Inference #KV-Cache #Phase-Asymmetric #Prefill #Decode #Transformer

2026년 5월 10일

[sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화

SGLang에서 SWA(Sliding Window Attention)를 HiCache와 통합하여 메모리 효율성과 추론 성능을 크게 향상시킨 변경사항 분석

#SGLang #LLM #KV-Cache #Optimization #HiCache

2026년 5월 6일

[논문리뷰] Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

본 논문은 기존 controllable diffusion 모델들의 파편화로 인한 시스템적 병목 현상을 해결하고자 합니다. 현재의 제어 방법들은 특정 백본에 종속적인 구조를 가지며, 각기 다른 학습 파이프라인과 런타임 훅을 사용하여 인프라 재사용이나 다중 제어 기법의 결합이 매우 어렵습니다.

#Review #Diffusion Models #Controllable Generation #Plugin Framework #KV-Cache #Template Model #Modular Design

2026년 4월 29일

[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.

#Review #Tool-Integrated Reasoning (TIR)#KV-Cache #PTE (Prefill Token Equivalents)#Inference Efficiency #Hardware-Aware Metric #LLM Agent

2026년 4월 7일

[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화

vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.

#vLLM #CUDA #Performance #KV-Cache #Optimization

2026년 4월 3일

[논문리뷰] DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

본 논문은 에이전틱 LLM 추론 시 KV-Cache 저장소 I/O가 컴퓨테이션보다 병목 현상을 일으키는 문제를 해결하고자 합니다.

#Review #LLM Inference #KV-Cache #Storage Bottleneck #Agentic Workloads #Dual-Path Loading #PD Disaggregation #RDMA #Adaptive Scheduling

2026년 2월 25일

[논문리뷰] Query as Anchor: Scenario-Adaptive User Representation via Large Language Model

본 논문은 정적이고 태스크에 독립적인 사용자 임베딩의 한계를 극복하고, 다양한 하위 시나리오의 요구사항을 통합된 벡터 공간 내에서 충족하는 적응형 사용자 표현 학습 프레임워크를 제안합니다. 특히, 이질적인 멀티모달 데이터를 통합하고 산업 규모에서 시나리오에 특화된 사용자 이해를 가능하게 하는 것을 목표로 합니다.

#Review #User Representation Learning #Large Language Models #Scenario-Adaptive #Query-Conditioned #Multi-modal #Prompt Tuning #KV-Cache #Industrial AI

2026년 2월 16일

[논문리뷰] Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

대규모 언어 모델(LLMs)이 직면한 긴 컨텍스트 처리의 문제를 해결하는 것이 목표입니다. 특히 연산 비용 증가 , 정보 망각 , 그리고 RAG(Retrieval-Augmented Generation)의 컨텍스트 단편화 와 같은 한계를 극복하며, 효율적인 긴 컨텍스트 추론 프레임워크를 제시하고자 합니다.

#Review #Long Context Reasoning #Memory Compression #Reinforcement Learning #Large Language Models (LLMs)#Inference Efficiency #Dynamic Recall #KV-Cache #Multi-hop Reasoning

2026년 2월 10일

[논문리뷰] Cache-to-Cache: Direct Semantic Communication Between Large Language Models

본 연구는 기존 멀티-LLM 시스템에서 텍스트 기반(Text-to-Text, T2T) 통신 이 야기하는 정보 손실, 모호성, 토큰 단위 생성 지연과 같은 한계를 극복하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Inter-model Communication #KV-Cache #Semantic Transfer #Multi-LLM Systems #Cache Fusion #Latency Reduction #Knowledge Sharing

2025년 10월 9일