[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.#vllm#offloading#memory-management#prefetch2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.#vllm#kv-cache#offloading#memory-management2026년 4월 8일댓글 수 로딩 중