[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.#sglang#FLA#Flashy Linear Attention#Chunk Processing2026년 4월 11일댓글 수 로딩 중
[SGLang] Lightning Attention: 고속 선형 어텐션 구현SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.#sglang#Lightning Attention#Linear Attention#IO-aware2026년 4월 11일댓글 수 로딩 중
[SGLang] KDA (Kernel-Driven Attention): 커널 기반 선형 어텐션SGLang의 KDA 선형 어텐션을 분석한다. 커널 함수를 활용한 선형 시간 어텐션, Triton/CutEDSL 커널 구현을 코드와 함께 살펴본다.#sglang#KDA#Kernel-Driven Attention#Linear Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] GDN (Gated Diagonal Net): 게이트 기반 선형 어텐션SGLang의 GDN 선형 어텐션을 분석한다. Gated Diagonal Net의 선형 복잡도 어텐션 구현, 게이트 메커니즘, FlashInfer/Triton/CutEDSL 커널 선택을 코드와 함께 살펴본다.#sglang#GDN#Linear Attention#Gated Diagonal Net2026년 4월 11일댓글 수 로딩 중
[SGLang] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링SGLang의 Mamba 구현을 분석한다. Transformer의 O(n²) 어텐션 대비 O(n) 선형 복잡도를 달성하는 State Space Model의 원리, Selective Scan 알고리즘, SGLang에서의 상태 관리를 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Space Model#Linear Complexity2026년 4월 11일댓글 수 로딩 중
[SGLang] Triton Attention 커널: Python으로 작성하는 GPU 커널SGLang의 Triton Attention 백엔드를 분석한다. Python으로 GPU 커널을 작성하는 Triton의 장점, Prefill/Decode/Extend 각 단계별 커널 구현을 코드와 함께 살펴본다.#sglang#Triton#GPU Kernel#Attention Kernel2026년 4월 11일댓글 수 로딩 중
[SGLang] Hybrid Attention: Dense-Sparse 동적 전환 전략SGLang의 Hybrid Attention 백엔드를 분석한다. Dense와 Sparse 어텐션을 동적으로 전환하는 전략, 전환 조건과 임계값 설계를 코드와 함께 살펴본다.#sglang#Hybrid Attention#Dense-Sparse#Dynamic Switching2026년 4월 11일댓글 수 로딩 중
[SGLang] Double Sparsity: H-Sparsity와 T-Sparsity의 이중 최적화SGLang의 Double Sparsity 백엔드를 분석한다. Head-level과 Token-level 두 가지 희소성을 동시에 활용하는 이중 최적화, Dense Attention 대비 메모리 절감 효과를 코드와 함께 살펴본다.#sglang#Double Sparsity#H-Sparsity#T-Sparsity#Sparse Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] NSA (Narrow Sparse Attention): DeepSeek의 스파스 어텐션SGLang의 NSA 백엔드를 분석한다. DeepSeek의 Narrow Sparse Attention이 선택적 토큰만 어텐션하는 원리, 인덱서 구조, Triton/TileLang 커널을 코드와 함께 살펴본다.#sglang#NSA#Sparse Attention#DeepSeek#Selective Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.#sglang#MLA#Multi-head Latent Attention#KV Compression#DeepSeek2026년 4월 11일댓글 수 로딩 중
[SGLang] FlashInfer: 래그드 텐서 어텐션 엔진SGLang의 FlashInfer 백엔드를 분석한다. 가변 길이 시퀀스를 위한 래그드 텐서 처리, FlashAttention 대비 장점, Paged KV Cache 통합을 코드와 함께 살펴본다.#sglang#FlashInfer#Ragged Tensor#Variable Length2026년 4월 11일댓글 수 로딩 중
[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.#sglang#FlashAttention#IO-aware#Tiling#HBM2026년 4월 11일댓글 수 로딩 중
[SGLang] Attention Registry: 동적 백엔드 선택 메커니즘SGLang의 Attention Registry를 분석한다. 런타임에 최적의 어텐션 백엔드를 동적으로 선택하는 레지스트리 패턴, 하드웨어별 백엔드 매핑을 코드와 함께 살펴본다.#sglang#Attention Registry#Backend Selection#Registry Pattern2026년 4월 11일댓글 수 로딩 중
[SGLang] RadixAttention Layer: 통합 어텐션 인터페이스의 설계SGLang의 RadixAttention Layer를 분석한다. 모든 어텐션 백엔드를 추상화하는 통합 인터페이스, forward 함수의 백엔드 디스패치, KV 캐시 연동을 코드와 함께 살펴본다.#sglang#RadixAttention#Attention Layer#Backend Dispatch2026년 4월 11일댓글 수 로딩 중
[SGLang] Multimodal Cache: Vision Encoder 출력 캐싱SGLang의 Multimodal Cache를 분석한다. Vision Encoder의 출력을 캐싱하여 동일 이미지에 대한 중복 인코딩을 방지하는 전략, 캐시 키 설계를 코드와 함께 살펴본다.#sglang#Multimodal Cache#Vision Encoder#Image Caching2026년 4월 11일댓글 수 로딩 중
[SGLang] 외부 스토리지 백엔드: LMCache, 3FS, Mooncake, NIXLSGLang의 외부 스토리지 백엔드를 분석한다. KV 캐시를 외부 스토리지로 확장하는 아키텍처, LMCache·3FS·Mooncake·NIXL 등 5개 백엔드의 구현을 코드와 함께 비교한다.#sglang#External Storage#LMCache#Mooncake#Distributed Cache2026년 4월 11일댓글 수 로딩 중
[SGLang] Session-Aware Cache: 사용자별 KV 캐시 파티셔닝SGLang의 Session-Aware Cache를 분석한다. 세션 단위로 KV 캐시를 파티셔닝하여 멀티턴 대화에서 캐시 재활용률을 높이는 전략을 코드와 함께 살펴본다.#sglang#Session Cache#Multi-turn#Cache Partitioning2026년 4월 11일댓글 수 로딩 중
[SGLang] Hybrid Cache Controller: GPU/CPU 하이브리드 캐시 관리SGLang의 Hybrid Cache Controller를 분석한다. GPU와 CPU 메모리를 결합한 하이브리드 캐시 구조, 핫/콜드 데이터 자동 분류, 계층 간 데이터 이동을 코드와 함께 살펴본다.#sglang#Hybrid Cache#GPU CPU#Memory Management2026년 4월 10일댓글 수 로딩 중
[SGLang] 캐시 Eviction 정책: LRU, LFU, FIFO 비교 분석SGLang의 캐시 Eviction 정책을 분석한다. LRU, LFU, FIFO 등 퇴거 전략의 구현, 각 정책의 장단점과 적용 시나리오를 코드와 함께 비교한다.#sglang#Cache Eviction#LRU#LFU#FIFO2026년 4월 10일댓글 수 로딩 중
[SGLang] Mamba Radix Cache: SSM 모델을 위한 상태 캐싱SGLang의 Mamba Radix Cache를 분석한다. Transformer와 다른 SSM(State Space Model)의 상태 관리, Mamba 모델의 재귀 상태 캐싱 전략을 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Caching#Radix Cache2026년 4월 10일댓글 수 로딩 중