#gptq

2개의 포스트

[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널

vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.

#vllm #quantization #marlin #gptq #gemm

2026년 4월 7일

[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화

vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.

#vllm #quantization #gptq #inference optimization

2026년 4월 7일