#inference optimization

3개의 포스트

[vLLM] FP8: 8비트 부동소수점 양자화

FP8 양자화의 텐서/블록 스케일링 전략과 vLLM의 온라인/오프라인 양자화 이중 경로 구현을 코드와 함께 분석한다.

#vllm #quantization #fp8 #inference optimization

2026년 4월 7일

[vLLM] AWQ: 활성화 인식 가중치 양자화

AWQ의 핵심 아이디어인 활성화 기반 중요 채널 보존이 vLLM에서 어떻게 구현되는지 코드 레벨로 분석한다.

#vllm #quantization #awq #inference optimization

2026년 4월 7일

[vLLM] GPTQ: 2차 정보 기반 후훈련 양자화

vLLM에서 GPTQ 양자화가 어떻게 구현되어 있는지, 헤시안 역행렬 기반 가중치 압축의 핵심 구조를 코드와 함께 분석한다.

#vllm #quantization #gptq #inference optimization

2026년 4월 7일