#prefetch

1개의 포스트

[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩

vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.

#vllm #offloading #memory-management #prefetch

2026년 4월 8일