[SGLang] Model Runner: 포워드 패스 실행 엔진의 핵심SGLang의 Model Runner를 분석한다. 모델 포워드 패스 실행, 입력 텐서 준비, Prefill/Decode 모드 분기, 출력 처리를 코드와 함께 살펴본다.#sglang#Model Runner#Forward Pass#Model Execution2026년 4월 11일댓글 수 로딩 중
[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.#sglang#TP Worker#Tensor Parallelism#GPU Worker2026년 4월 11일댓글 수 로딩 중
[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.#sglang#FLA#Flashy Linear Attention#Chunk Processing2026년 4월 11일댓글 수 로딩 중
[SGLang] Lightning Attention: 고속 선형 어텐션 구현SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.#sglang#Lightning Attention#Linear Attention#IO-aware2026년 4월 11일댓글 수 로딩 중
[cpython] CPython JIT 최적화: _POP_TWO/_POP_CALL 연산 분해를 통한 성능 향상CPython JIT 컴파일러에서 불필요한 스택 조작을 제거하여 성능을 개선하는 코드 변경 분석.#Python#CPython#JIT#Optimization#Performance2026년 4월 11일댓글 수 로딩 중
[cpython] Python 3.14 내부 최적화: 가변 인자 Opcode의 스택 관리 개선CALL_BUILTIN_FAST_WITH_KEYWORDS 옵코드가 인자를 스택에 남기도록 변경되어 에러 발생 시의 스택 복구 효율성이 향상되었습니다.#CPython#Python3.14#Optimization#Bytecode#VirtualMachine2026년 4월 11일댓글 수 로딩 중
[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중
[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.#SGLang#AMD#ROCm#FP8#KernelFusion#LLM2026년 4월 11일댓글 수 로딩 중
[SGLang] KDA (Kernel-Driven Attention): 커널 기반 선형 어텐션SGLang의 KDA 선형 어텐션을 분석한다. 커널 함수를 활용한 선형 시간 어텐션, Triton/CutEDSL 커널 구현을 코드와 함께 살펴본다.#sglang#KDA#Kernel-Driven Attention#Linear Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] GDN (Gated Diagonal Net): 게이트 기반 선형 어텐션SGLang의 GDN 선형 어텐션을 분석한다. Gated Diagonal Net의 선형 복잡도 어텐션 구현, 게이트 메커니즘, FlashInfer/Triton/CutEDSL 커널 선택을 코드와 함께 살펴본다.#sglang#GDN#Linear Attention#Gated Diagonal Net2026년 4월 11일댓글 수 로딩 중
[SGLang] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링SGLang의 Mamba 구현을 분석한다. Transformer의 O(n²) 어텐션 대비 O(n) 선형 복잡도를 달성하는 State Space Model의 원리, Selective Scan 알고리즘, SGLang에서의 상태 관리를 코드와 함께 살펴본다.#sglang#Mamba#SSM#State Space Model#Linear Complexity2026년 4월 11일댓글 수 로딩 중
[SGLang] Triton Attention 커널: Python으로 작성하는 GPU 커널SGLang의 Triton Attention 백엔드를 분석한다. Python으로 GPU 커널을 작성하는 Triton의 장점, Prefill/Decode/Extend 각 단계별 커널 구현을 코드와 함께 살펴본다.#sglang#Triton#GPU Kernel#Attention Kernel2026년 4월 11일댓글 수 로딩 중
[SGLang] Hybrid Attention: Dense-Sparse 동적 전환 전략SGLang의 Hybrid Attention 백엔드를 분석한다. Dense와 Sparse 어텐션을 동적으로 전환하는 전략, 전환 조건과 임계값 설계를 코드와 함께 살펴본다.#sglang#Hybrid Attention#Dense-Sparse#Dynamic Switching2026년 4월 11일댓글 수 로딩 중
[SGLang] Double Sparsity: H-Sparsity와 T-Sparsity의 이중 최적화SGLang의 Double Sparsity 백엔드를 분석한다. Head-level과 Token-level 두 가지 희소성을 동시에 활용하는 이중 최적화, Dense Attention 대비 메모리 절감 효과를 코드와 함께 살펴본다.#sglang#Double Sparsity#H-Sparsity#T-Sparsity#Sparse Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] NSA (Narrow Sparse Attention): DeepSeek의 스파스 어텐션SGLang의 NSA 백엔드를 분석한다. DeepSeek의 Narrow Sparse Attention이 선택적 토큰만 어텐션하는 원리, 인덱서 구조, Triton/TileLang 커널을 코드와 함께 살펴본다.#sglang#NSA#Sparse Attention#DeepSeek#Selective Attention2026년 4월 11일댓글 수 로딩 중
[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.#sglang#MLA#Multi-head Latent Attention#KV Compression#DeepSeek2026년 4월 11일댓글 수 로딩 중
[SGLang] FlashInfer: 래그드 텐서 어텐션 엔진SGLang의 FlashInfer 백엔드를 분석한다. 가변 길이 시퀀스를 위한 래그드 텐서 처리, FlashAttention 대비 장점, Paged KV Cache 통합을 코드와 함께 살펴본다.#sglang#FlashInfer#Ragged Tensor#Variable Length2026년 4월 11일댓글 수 로딩 중
[SGLang] FlashAttention 백엔드: IO-aware 타일링 어텐션의 구현SGLang의 FlashAttention 백엔드를 분석한다. IO-aware 타일링으로 HBM 접근을 최소화하는 원리, 기존 standard attention 대비 메모리·속도 개선, Prefill/Decode 모드 분기를 코드와 함께 살펴본다.#sglang#FlashAttention#IO-aware#Tiling#HBM2026년 4월 11일댓글 수 로딩 중
[SGLang] Attention Registry: 동적 백엔드 선택 메커니즘SGLang의 Attention Registry를 분석한다. 런타임에 최적의 어텐션 백엔드를 동적으로 선택하는 레지스트리 패턴, 하드웨어별 백엔드 매핑을 코드와 함께 살펴본다.#sglang#Attention Registry#Backend Selection#Registry Pattern2026년 4월 11일댓글 수 로딩 중
[SGLang] RadixAttention Layer: 통합 어텐션 인터페이스의 설계SGLang의 RadixAttention Layer를 분석한다. 모든 어텐션 백엔드를 추상화하는 통합 인터페이스, forward 함수의 백엔드 디스패치, KV 캐시 연동을 코드와 함께 살펴본다.#sglang#RadixAttention#Attention Layer#Backend Dispatch2026년 4월 11일댓글 수 로딩 중