[vLLM] Sleep Mode: GPU 메모리 동적 관리vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.#vllm#sleep-mode#memory-management#cuda#gpu2026년 4월 8일댓글 수 로딩 중