[llm-compressor] AWQ: 활성화 인식 가중치 양자화 구현AWQ 논문의 salient weight 스케일링 아이디어가 llm-compressor에서 mappings와 dynamic_mappings를 통해 어떻게 구현되는지 분석#llm-compressor#AWQ#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[SGLang] AWQ: 활성화 인식 가중치 양자화SGLang의 AWQ 구현을 분석한다. 활성화 분포를 고려한 가중치 양자화의 원리, 채널별 스케일링, GPTQ 대비 장점을 코드와 함께 살펴본다.#sglang#AWQ#Activation-aware#Weight Quantization2026년 4월 12일댓글 수 로딩 중