[sglang] SGLang의 Linear-Attention 성능 최적화: int8 체크포인트 풀 도입Linear-attention 모델의 Radix 캐시 효율을 int8 양자화로 2배 높여, 메모리 제약 없이 더 많은 프리픽스를 재사용하는 최적화 기법.#SGLang#Linear-Attention#Optimization#Quantization#LLM2026년 6월 18일댓글 수 로딩 중