[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.#vllm#scheduler#preemption#async#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] Sleep Mode: GPU 메모리 동적 관리vLLM의 Sleep Mode를 구현하는 CuMemAllocator를 분석한다. PyTorch pluggable allocator를 활용한 GPU 메모리 오프로딩과 복원 메커니즘을 살펴본다.#vllm#sleep-mode#memory-management#cuda#gpu2026년 4월 8일댓글 수 로딩 중
[vLLM] Model Weight Offloading: 가중치 CPU 오프로딩vLLM의 모델 가중치 CPU 오프로딩 시스템을 분석한다. UVA 오프로딩과 Prefetch 오프로딩, 두 가지 전략의 구현 차이를 코드 레벨에서 살펴본다.#vllm#offloading#memory-management#prefetch2026년 4월 8일댓글 수 로딩 중
[vLLM] KV Cache Offloading: GPU에서 CPU로의 KV 캐시 오프로딩vLLM v1의 KV 캐시 CPU 오프로딩 시스템을 분석한다. OffloadingManager 추상화, LRU/ARC 캐시 정책, 블록 레벨 관리의 설계를 살펴본다.#vllm#kv-cache#offloading#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] GPU Worker & InputBatchvLLM의 GPU Worker가 모델을 로딩하고 실행하는 과정과 InputBatch의 GPU 텐서 관리를 분석한다.#vllm#gpu-worker#cuda#memory-management2026년 4월 7일댓글 수 로딩 중
[vLLM] PagedAttention: OS 페이징 기법으로 KV 캐시를 관리하는 방법운영체제의 가상 메모리 페이징 기법을 KV 캐시 관리에 적용한 PagedAttention의 핵심 구조를 vLLM 코드와 함께 분석한다.#vllm#paged-attention#kv-cache#memory-management2026년 4월 7일댓글 수 로딩 중