[SGLang] Block-wise INT8: 블록 단위 정수 양자화SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.#sglang#INT8#Block-wise#Integer Quantization2026년 4월 12일댓글 수 로딩 중
[논문리뷰] INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats현대 AI 하드웨어는 LLM의 아웃라이어를 처리하기 위해 저정밀 부동소수점(FP) 형식을 점차 채택하고 있으나, 다양한 과립도(granularity)에 걸친 FP와 정수(INT) 양자화에 대한 통합적인 비교 연구가 부족합니다.#Review#Quantization#Low-bit Formats#Integer Quantization#Floating-Point Quantization#Large Language Models (LLMs)#Hardware Efficiency#Fine-Grained Quantization#MXINT82025년 11월 9일댓글 수 로딩 중