[vllm] ROCm Sleep Mode - AMD GPU 전력 절약 모드 이식

2025년 11월 12일수정: 2025년 11월 12일

PR 링크: vllm-project/vllm#12695 상태: Merged | 변경: +582/-31

들어가며

vLLM의 sleep mode는 GPU가 유휴 상태일 때 가중치 메모리를 해제하여 다른 프로세스가 GPU를 사용할 수 있게 하는 기능이다. 이 PR은 CUDA 전용이었던 이 기능을 AMD ROCm 플랫폼으로 이식한다.

핵심 코드 분석

ROCm용 청크 기반 메모리 관리

// ROCm의 cuMemCreate 제한 대응: 청크 단위 할당
static const unsigned long long DEFAULT_MEMCREATE_CHUNK_SIZE =
    (256ULL * 1024ULL * 1024ULL);  // 256MB 기본 청크

static unsigned long long get_memcreate_chunk_size() {
    const char* env = getenv("VLLM_ROCM_SLEEP_MEM_CHUNK_SIZE");
    // 환경변수로 청크 크기 조정 가능
    ...
}

ROCm의 cuMemCreate는 한 번에 할당할 수 있는 크기에 제한이 있다. 이를 우회하기 위해 256MB 청크 단위로 분할 할당하고, 환경변수로 조정 가능하게 했다.

청크 단위 map/unmap

// CUDA: 단일 할당
cuMemCreate(p_memHandle, size, &prop, 0);
cuMemMap(d_mem, size, 0, *p_memHandle, 0);

// ROCm: 청크 분할
for (auto i = 0; i < num_chunks; ++i) {
    cuMemCreate(p_memHandle[i], chunk_sizes[i], &prop, 0);
}
for (auto i = 0; i < num_chunks; ++i) {
    void* map_addr = (void*)((uintptr_t)d_mem + allocated_size);
    cuMemMap(map_addr, chunk_sizes[i], 0, *(p_memHandle[i]), 0);
    allocated_size += chunk_sizes[i];
}

CMake 빌드 지원

# HIP도 cumem allocator 빌드에 포함
if(VLLM_GPU_LANG STREQUAL "CUDA" OR VLLM_GPU_LANG STREQUAL "HIP")
    message(STATUS "Enabling cumem allocator extension.")
    # ROCm: libamdhip64 링크
    find_library(AMDHIP64_LIB NAMES amdhip64 ...)