[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.#vllm#quantization#marlin#gptq#gemm2026년 4월 7일댓글 수 로딩 중
[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.#vllm#quantization#gptq#inference optimization2026년 4월 7일댓글 수 로딩 중