#Linear-Attention

1개의 포스트

[sglang] SGLang의 Linear-Attention 성능 최적화: int8 체크포인트 풀 도입

Linear-attention 모델의 Radix 캐시 효율을 int8 양자화로 2배 높여, 메모리 제약 없이 더 많은 프리픽스를 재사용하는 최적화 기법.

#SGLang #Linear-Attention #Optimization #Quantization #LLM

2026년 6월 18일