#gpu

2개의 포스트

[vLLM] Sleep Mode: GPU 메모리 동적 관리

vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.

#vllm #sleep-mode #memory-management #cuda #gpu

2026년 4월 8일

[vLLM] Pipeline Parallelism: 파이프라인 병렬화

vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.

#vllm #pipeline-parallelism #distributed #gpu

2026년 4월 7일