#offloading

2개의 포스트

[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩

vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.

#vllm #offloading #memory-management #prefetch

2026년 4월 8일

[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩

vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.

#vllm #kv-cache #offloading #memory-management

2026년 4월 8일