SGLang

[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산

SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.

#sglang #FLA #Flashy Linear Attention #Chunk Processing

2026년 4월 11일

[SGLang] Lightning Attention: 고속 선형 어텐션 구현

SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.

#sglang #Lightning Attention #Linear Attention #IO-aware

2026년 4월 11일

[SGLang] KDA (Kernel-Driven Attention): 커널 기반 선형 어텐션

SGLang의 KDA 선형 어텐션을 분석한다. 커널 함수를 활용한 선형 시간 어텐션, Triton/CutEDSL 커널 구현을 코드와 함께 살펴본다.

#sglang #KDA #Kernel-Driven Attention #Linear Attention

2026년 4월 11일

[SGLang] GDN (Gated Diagonal Net): 게이트 기반 선형 어텐션

SGLang의 GDN 선형 어텐션을 분석한다. Gated Diagonal Net의 선형 복잡도 어텐션 구현, 게이트 메커니즘, FlashInfer/Triton/CutEDSL 커널 선택을 코드와 함께 살펴본다.

#sglang #GDN #Linear Attention #Gated Diagonal Net

2026년 4월 11일

[SGLang] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링

SGLang의 Mamba 구현을 분석한다. Transformer의 O(n²) 어텐션 대비 O(n) 선형 복잡도를 달성하는 State Space Model의 원리, Selective Scan 알고리즘, SGLang에서의 상태 관리를 코드와 함께 살펴본다.

#sglang #Mamba #SSM #State Space Model #Linear Complexity

2026년 4월 11일

[SGLang] Triton Attention 커널: Python으로 작성하는 GPU 커널

SGLang의 Triton Attention 백엔드를 분석한다. Python으로 GPU 커널을 작성하는 Triton의 장점, Prefill/Decode/Extend 각 단계별 커널 구현을 코드와 함께 살펴본다.

#sglang #Triton #GPU Kernel #Attention Kernel

2026년 4월 11일

[SGLang] Hybrid Attention: Dense-Sparse 동적 전환 전략

SGLang의 Hybrid Attention 백엔드를 분석한다. Dense와 Sparse 어텐션을 동적으로 전환하는 전략, 전환 조건과 임계값 설계를 코드와 함께 살펴본다.

#sglang #Hybrid Attention #Dense-Sparse #Dynamic Switching

2026년 4월 11일

[SGLang] Double Sparsity: H-Sparsity와 T-Sparsity의 이중 최적화

SGLang의 Double Sparsity 백엔드를 분석한다. Head-level과 Token-level 두 가지 희소성을 동시에 활용하는 이중 최적화, Dense Attention 대비 메모리 절감 효과를 코드와 함께 살펴본다.

#sglang #Double Sparsity #H-Sparsity #T-Sparsity #Sparse Attention

2026년 4월 11일

[SGLang] NSA (Narrow Sparse Attention): DeepSeek의 스파스 어텐션

SGLang의 NSA 백엔드를 분석한다. DeepSeek의 Narrow Sparse Attention이 선택적 토큰만 어텐션하는 원리, 인덱서 구조, Triton/TileLang 커널을 코드와 함께 살펴본다.

#sglang #NSA #Sparse Attention #DeepSeek #Selective Attention

2026년 4월 11일

[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션

SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.

#sglang #MLA #Multi-head Latent Attention #KV Compression #DeepSeek

2026년 4월 11일

[SGLang] FlashInfer: 래그드 텐서 어텐션 엔진

SGLang의 FlashInfer 백엔드를 분석한다. 가변 길이 시퀀스를 위한 래그드 텐서 처리, FlashAttention 대비 장점, Paged KV Cache 통합을 코드와 함께 살펴본다.

#sglang #FlashInfer #Ragged Tensor #Variable Length

2026년 4월 11일

[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현

SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.

#sglang #FlashAttention #IO-aware #Tiling #HBM

2026년 4월 11일

[SGLang] Attention Registry: 동적 백엔드 선택 메커니즘

SGLang의 Attention Registry를 분석한다. 런타임에 최적의 어텐션 백엔드를 동적으로 선택하는 레지스트리 패턴, 하드웨어별 백엔드 매핑을 코드와 함께 살펴본다.

#sglang #Attention Registry #Backend Selection #Registry Pattern

2026년 4월 11일

[SGLang] RadixAttention Layer: 통합 어텐션 인터페이스의 설계

SGLang의 RadixAttention Layer를 분석한다. 모든 어텐션 백엔드를 추상화하는 통합 인터페이스, forward 함수의 백엔드 디스패치, KV 캐시 연동을 코드와 함께 살펴본다.

#sglang #RadixAttention #Attention Layer #Backend Dispatch

2026년 4월 11일

[SGLang] Multimodal Cache: Vision Encoder 출력 캐싱

SGLang의 Multimodal Cache를 분석한다. Vision Encoder의 출력을 캐싱하여 동일 이미지에 대한 중복 인코딩을 방지하는 전략, 캐시 키 설계를 코드와 함께 살펴본다.

#sglang #Multimodal Cache #Vision Encoder #Image Caching

2026년 4월 11일

[SGLang] 외부 스토리지 백엔드: LMCache, 3FS, Mooncake, NIXL

SGLang의 외부 스토리지 백엔드를 분석한다. KV 캐시를 외부 스토리지로 확장하는 아키텍처, LMCache·3FS·Mooncake·NIXL 등 5개 백엔드의 구현을 코드와 함께 비교한다.

#sglang #External Storage #LMCache #Mooncake #Distributed Cache

2026년 4월 11일

[SGLang] Session-Aware Cache: 사용자별 KV 캐시 파티셔닝

SGLang의 Session-Aware Cache를 분석한다. 세션 단위로 KV 캐시를 파티셔닝하여 멀티턴 대화에서 캐시 재활용률을 높이는 전략을 코드와 함께 살펴본다.

#sglang #Session Cache #Multi-turn #Cache Partitioning

2026년 4월 11일

[SGLang] Hybrid Cache Controller: GPU/CPU 하이브리드 캐시 관리

SGLang의 Hybrid Cache Controller를 분석한다. GPU와 CPU 메모리를 결합한 하이브리드 캐시 구조, 핫/콜드 데이터 자동 분류, 계층 간 데이터 이동을 코드와 함께 살펴본다.

#sglang #Hybrid Cache #GPU CPU #Memory Management

2026년 4월 10일

[SGLang] 캐시 Eviction 정책: LRU, LFU, FIFO 비교 분석

SGLang의 캐시 Eviction 정책을 분석한다. LRU, LFU, FIFO 등 퇴거 전략의 구현, 각 정책의 장단점과 적용 시나리오를 코드와 함께 비교한다.

#sglang #Cache Eviction #LRU #LFU #FIFO

2026년 4월 10일

[SGLang] Mamba Radix Cache: SSM 모델을 위한 상태 캐싱

SGLang의 Mamba Radix Cache를 분석한다. Transformer와 다른 SSM(State Space Model)의 상태 관리, Mamba 모델의 재귀 상태 캐싱 전략을 코드와 함께 살펴본다.

#sglang #Mamba #SSM #State Caching #Radix Cache

2026년 4월 10일