[SGLang] Double Sparsity: H-Sparsity와 T-Sparsity의 이중 최적화SGLang의 Double Sparsity 백엔드를 분석한다. Head-level과 Token-level 두 가지 희소성을 동시에 활용하는 이중 최적화, Dense Attention 대비 메모리 절감 효과를 코드와 함께 살펴본다.#sglang#Double Sparsity#H-Sparsity#T-Sparsity#Sparse Attention2026년 4월 11일댓글 수 로딩 중