#fp8

3개의 포스트

[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화

vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.

#vllm #kv-cache #quantization #fp8

2026년 4월 8일

[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, Quark

vLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.

#vllm #quantization #fp8 #modelopt #torchao #quark #inc

2026년 4월 7일

[vLLM] FP8: 8비트 부동소수점 양자화

FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.

#vllm #quantization #fp8 #inference optimization

2026년 4월 7일