#quantization

11개의 포스트

[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화

vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.

#vllm #kv-cache #quantization #fp8

2026년 4월 8일

[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, Quark

vLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.

#vllm #quantization #fp8 #modelopt #torchao #quark #inc

2026년 4월 7일

[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크

Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.

#vllm #quantization #compressed-tensors #sparsity #neural-magic

2026년 4월 7일

[vLLM] GGUF: llama.cpp 양자화 포맷 지원

vLLM에서 llama.cpp의 GGUF 양자화 포맷을 어떻게 지원하는지 분석한다. Q4_0부터 IQ4_XS까지의 양자화 타입별 커널 전략.

#vllm #quantization #gguf #llama-cpp

2026년 4월 7일

[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널

vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.

#vllm #quantization #marlin #gptq #gemm

2026년 4월 7일

[vLLM] BitsAndBytes (QLoRA): 4비트 NormalFloat 양자화

vLLM에서 BitsAndBytes 양자화가 어떻게 통합되어 있는지 분석한다. 4비트/8비트 양자화의 내부 구현과 MoE 지원.

#vllm #quantization #bitsandbytes #qlora #nf4

2026년 4월 7일

[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화

vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.

#vllm #quantization #mxfp8 #mxfp4 #microscaling

2026년 4월 7일

[vLLM] Model Loader: 모델 가중치 로딩

vLLM이 다양한 포맷의 모델 가중치를 로딩하는 DefaultModelLoader의 내부 동작을 분석한다.

#vllm #model-loading #safetensors #quantization

2026년 4월 7일

[vLLM] FP8: 8비트 부동소수점 양자화

FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.

#vllm #quantization #fp8 #inference optimization

2026년 4월 7일

[vLLM] AWQ: 활성화 인식 가중치 양자화

AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.

#vllm #quantization #awq #inference optimization

2026년 4월 7일

[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화

vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.

#vllm #quantization #gptq #inference optimization

2026년 4월 7일