[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.#vllm#quantization#marlin#gptq#gemm2026년 4월 7일댓글 수 로딩 중