#W8A8

2개의 포스트

[llm-compressor] SmoothQuant: 활성화→가중치 양자화 난이도 이동

SmoothQuant 논문의 activation smoothing 기법이 llm-compressor에서 어떻게 구현되어 있고, per-channel scale 결정과 RMSNorm 흡수 방식 분석

#llm-compressor #SmoothQuant #Quantization #W8A8

2026년 4월 13일

[SGLang] W4A8, W8A8, W4A4: 혼합 정밀도 양자화 스킴

SGLang의 혼합 정밀도 양자화 스킴을 분석한다. Weight-4bit/Activation-8bit(W4A8), W8A8, W4A4 등 조합별 구현, 정확도-성능 트레이드오프를 코드와 함께 비교한다.

#sglang #Mixed Precision #W4A8 #W8A8 #Quantization Schemes

2026년 4월 12일