#AWQ

2개의 포스트

[llm-compressor] AWQ: 활성화 인식 가중치 양자화 구현

AWQ 논문의 salient weight 스케일링 아이디어가 llm-compressor에서 mappings와 dynamic_mappings를 통해 어떻게 구현되는지 분석

#llm-compressor #AWQ #Quantization #PTQ

2026년 4월 13일

[SGLang] AWQ: 활성화 인식 가중치 양자화

SGLang의 AWQ 구현을 분석한다. 활성화 분포를 고려한 가중치 양자화의 원리, 채널별 스케일링, GPTQ 대비 장점을 코드와 함께 살펴본다.

#sglang #AWQ #Activation-aware #Weight Quantization

2026년 4월 12일