[llm-compressor] SmoothQuant: 활성화→가중치 양자화 난이도 이동SmoothQuant 논문의 activation smoothing 기법이 llm-compressor에서 어떻게 구현되어 있고, per-channel scale 결정과 RMSNorm 흡수 방식 분석#llm-compressor#SmoothQuant#Quantization#W8A82026년 4월 13일댓글 수 로딩 중
[SGLang] W4A8, W8A8, W4A4: 혼합 정밀도 양자화 스킴SGLang의 혼합 정밀도 양자화 스킴을 분석한다. Weight-4bit/Activation-8bit(W4A8), W8A8, W4A4 등 조합별 구현, 정확도-성능 트레이드오프를 코드와 함께 비교한다.#sglang#Mixed Precision#W4A8#W8A8#Quantization Schemes2026년 4월 12일댓글 수 로딩 중