[vLLM] KV Cache Quantization: KV 캐시 FP8/INT8 양자화vLLM의 KV 캐시 양자화 구현을 분석한다. BaseKVCacheMethod의 스케일 관리, per-tensor/per-token-head 양자화 전략의 차이를 살펴본다.#vllm#kv-cache#quantization#fp82026년 4월 8일댓글 수 로딩 중
[vLLM] 기타 양자화: FP8, ModelOpt, INC, TorchAO, QuarkvLLM이 지원하는 다양한 양자화 방식을 총정리한다. 온라인 FP8, NVIDIA ModelOpt, Intel Neural Compressor, TorchAO, AMD Quark까지.#vllm#quantization#fp8#modelopt#torchao#quark#inc2026년 4월 7일댓글 수 로딩 중
[vLLM] FP8: 8비트 부동소수점 양자화FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.#vllm#quantization#fp8#inference optimization2026년 4월 7일댓글 수 로딩 중