[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.#vllm#kv-cache#quantization#fp82026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, QuarkvLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.#vllm#quantization#fp8#modelopt#torchao#quark#inc2026년 4월 7일댓글 수 로딩 중
[vLLM] Compressed Tensors: 양자화+희소성 통합 프레임워크Neural Magic의 Compressed Tensors 프레임워크가 vLLM에서 어떻게 통합되는지 분석한다. W8A8, W4A16, 2:4 희소성까지 하나의 추상화로 처리하는 구조.#vllm#quantization#compressed-tensors#sparsity#neural-magic2026년 4월 7일댓글 수 로딩 중
[vLLM] GGUF: llama.cpp 양자화 포맷 지원vLLM에서 llama.cpp의 GGUF 양자화 포맷을 어떻게 지원하는지 분석한다. Q4_0부터 IQ4_XS까지의 양자화 타입별 커널 전략.#vllm#quantization#gguf#llama-cpp2026년 4월 7일댓글 수 로딩 중
[vLLM] Marlin Kernels: 양자화 고속 GEMM 커널vLLM의 GPTQ-Marlin 양자화 커널을 분석한다. 4비트/8비트 GPTQ를 Marlin 커널로 변환하여 고속 추론을 달성하는 구조.#vllm#quantization#marlin#gptq#gemm2026년 4월 7일댓글 수 로딩 중
[vLLM] BitsAndBytes (QLoRA): 4비트 NormalFloat 양자화vLLM에서 BitsAndBytes 양자화가 어떻게 통합되어 있는지 분석한다. 4비트/8비트 양자화의 내부 구현과 MoE 지원.#vllm#quantization#bitsandbytes#qlora#nf42026년 4월 7일댓글 수 로딩 중
[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.#vllm#quantization#mxfp8#mxfp4#microscaling2026년 4월 7일댓글 수 로딩 중
[vLLM] Model Loader: 모델 가중치 로딩vLLM이 다양한 포맷의 모델 가중치를 로딩하는 DefaultModelLoader의 내부 동작을 분석한다.#vllm#model-loading#safetensors#quantization2026년 4월 7일댓글 수 로딩 중
[vLLM] FP8: 8비트 부동소수점 양자화FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.#vllm#quantization#fp8#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] AWQ: 활성화 인식 가중치 양자화AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.#vllm#quantization#awq#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.#vllm#quantization#gptq#inference optimization2026년 4월 7일댓글 수 로딩 중