#kv-cache

5개의 포스트

[vLLM] KV Cache Coordinator: 하이브리드 KV 캐시 조율

vLLM의 KV 캐시 코디네이터를 분석한다. Unitary, Hybrid, NoPrefixCache 세 가지 코디네이터와 하이브리드 어텐션 모델의 캐시 히트 탐색 알고리즘을 살펴본다.

#vllm #kv-cache #prefix-caching #hybrid-attention

2026년 4월 8일

[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화

vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.

#vllm #kv-cache #quantization #fp8

2026년 4월 8일

[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩

vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.

#vllm #kv-cache #offloading #memory-management

2026년 4월 8일

[vLLM] Automatic Prefix Caching: 접두사 캐싱

vLLM의 KVCacheManager가 해시 기반으로 프롬프트 접두사를 자동 캐싱하여 중복 연산을 제거하는 메커니즘을 코드와 함께 분석한다.

#vllm #kv-cache #prefix-caching #scheduling

2026년 4월 7일

[vLLM] PagedAttention: OS 페이징 기법으로 KV 캐시를 관리하는 방법

운영체제의 가상 메모리 페이징 기법을 KV 캐시 관리에 적용한 PagedAttention의 핵심 구조를 vLLM 코드와 함께 분석한다.

#vllm #paged-attention #kv-cache #memory-management

2026년 4월 7일