[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기

2026년 4월 24일수정: 2026년 4월 24일

PR 링크: vllm-project/vllm#34556 상태: Merged | 변경: +None / -None

들어가며

최근 vLLM 레포지토리에 Humming 커널 라이브러리를 통합하는 PR이 병합되었습니다. Humming은 매우 유연한 JIT(Just-In-Time) 양자화 커널 라이브러리로, 기존의 Marlin 커널보다 더 넓은 범위의 양자화 타입(W1-8, A16/8/4)을 지원하며, 특히 다양한 GPU 아키텍처에서 뛰어난 성능을 보여줍니다. 이 PR은 vLLM이 더 다양한 양자화 포맷을 효율적으로 처리할 수 있도록 인프라를 확장하고, 특히 MoE(Mixture of Experts) 모델에서의 추론 성능을 극대화하는 것을 목표로 합니다.

코드 분석

1. 환경 설정 및 설정값 로드 (`vllm/envs.py`)

Humming은 사용자가 환경 변수를 통해 온라인 양자화(Online Quantization) 및 입력 양자화 설정을 세밀하게 조정할 수 있도록 설계되었습니다.

# Before
# (Humming 관련 환경 변수 없음)

# After
"VLLM_HUMMING_ONLINE_QUANT_CONFIG": lambda: maybe_convert_json_str_or_file(
    os.environ.get("VLLM_HUMMING_ONLINE_QUANT_CONFIG", None)
),
"VLLM_HUMMING_INPUT_QUANT_CONFIG": lambda: maybe_convert_json_str_or_file(
    os.environ.get("VLLM_HUMMING_INPUT_QUANT_CONFIG", None)
),

이 변경을 통해 사용자는 모델 로드 시점에 특정 레이어에 대해 동적으로 양자화 타입을 지정할 수 있게 되었습니다.

2. Fused MoE 커널 구현 (`vllm/model_executor/layers/fused_moe/fused_humming_moe.py`)

Humming 커널의 핵심은 MoE 레이어에서의 효율적인 GEMM 연산입니다. 기존의 Fused MoE 구조를 활용하되, Humming의 JIT 컴파일 기능을 결합했습니다.

# Humming MoE 커널 초기화 로직
def init_humming_moe(self):
    self.compute_config = {
        "use_batch_invariant": envs.VLLM_BATCH_INVARIANT,
        "use_f16_accum": envs.VLLM_HUMMING_USE_F16_ACCUM,
        "gemm_type": self.humming_gemm_type.value,
    }
    # ... (tuning config 생성)

특히 use_f16_accum 옵션을 통해 FP32 대신 FP16 누적기(Accumulator)를 사용하여 Turing/Ada Lovelace 아키텍처에서 TFLOPS를 크게 향상시킬 수 있습니다.

왜 이게 좋은가

유연한 양자화 지원: 기존 커널들이 특정 비트 수(예: 4-bit)에 최적화되어 있었다면, Humming은 W1에서 W8까지의 다양한 비트 폭을 지원합니다. 이는 모델 압축률과 정확도 사이의 트레이드오프를 사용자가 훨씬 세밀하게 조정할 수 있음을 의미합니다.
자동 패딩 처리: Marlin과 같은 기존 커널은 shape_n, shape_k가 블록 크기에 딱 맞아야 했지만, Humming은 자동으로 패딩을 처리하여 사용자의 편의성을 높였습니다.
성능 향상: 벤치마크 결과에 따르면, 특히 MoE 모델에서 Expert Parallelism(EP=8) 환경일 때 기존 대비 약 4배의 속도 향상을 보여줍니다. 이는 moe_fused_mul_sum 커널이 가중치 곱셈과 합산 과정을 최적화하여 불필요한 연산을 줄였기 때문입니다.

Humming GitHub

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [onnxruntime] ONNX Runtime 스레드 풀의 지능형 대기: Exponential Backoff 도입으로 성능 및 전력 효율성 향상
현재글 : [vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기
다음글 [flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화