[vLLM] FP8: 8비트 부동소수점 양자화FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.#vllm#quantization#fp8#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] AWQ: 활성화 인식 가중치 양자화AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.#vllm#quantization#awq#inference optimization2026년 4월 7일댓글 수 로딩 중
[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.#vllm#quantization#gptq#inference optimization2026년 4월 7일댓글 수 로딩 중