최신 포스트

[SGLang] torch.compile & Inductor: PyTorch 컴파일러 통합

SGLang의 torch.compile 통합을 분석한다. PyTorch Inductor를 통한 커널 퓨전, Piecewise 컴파일 전략, 1.5x 성능 향상의 원리를 코드와 함께 살펴본다.

#sglang #torch.compile #Inductor #Kernel Fusion #Compilation

2026년 4월 11일

[SGLang] Model Loader: 가중치 로딩 인프라와 최적화

SGLang의 Model Loader를 분석한다. Safetensors/PyTorch 가중치 로딩, 텐서 병렬 분산, 양자화 가중치 처리, 메모리 매핑 최적화를 코드와 함께 살펴본다.

#sglang #Model Loader #Weight Loading #Safetensors

2026년 4월 11일

[SGLang] Piecewise CUDA Graph: 분할 그래프 컴파일 전략

SGLang의 Piecewise CUDA Graph를 분석한다. 모델을 여러 조각으로 분할하여 CUDA Graph를 캡처하는 전략, 동적 형상 지원, 메모리 효율성을 코드와 함께 살펴본다.

#sglang #Piecewise CUDA Graph #Graph Compilation #Dynamic Shapes

2026년 4월 11일

[SGLang] CUDA Graphs: 커널 런칭 오버헤드 제거

SGLang의 CUDA Graph Runner를 분석한다. GPU 커널 런칭 오버헤드를 제거하는 CUDA Graph 캡처/재생 메커니즘, 배치 크기별 그래프 관리, 메모리 풀 통합을 코드와 함께 살펴본다.

#sglang #CUDA Graphs #Kernel Launch #GPU Optimization

2026년 4월 11일

[SGLang] ForwardBatch: ScheduleBatch에서 GPU 텐서로의 변환

SGLang의 ForwardBatch를 분석한다. CPU의 ScheduleBatch를 GPU 텐서로 변환하는 과정, Prefill/Decode별 텐서 구성, 메모리 레이아웃 최적화를 코드와 함께 살펴본다.

#sglang #ForwardBatch #GPU Tensors #Batch Conversion

2026년 4월 11일

[SGLang] Model Runner: 포워드 패스 실행 엔진의 핵심

SGLang의 Model Runner를 분석한다. 모델 포워드 패스 실행, 입력 텐서 준비, Prefill/Decode 모드 분기, 출력 처리를 코드와 함께 살펴본다.

#sglang #Model Runner #Forward Pass #Model Execution

2026년 4월 11일

[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계

SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.

#sglang #TP Worker #Tensor Parallelism #GPU Worker

2026년 4월 11일

[SGLang] FLA (Flashy Linear Attention): 청크 기반 선형 어텐션 연산

SGLang의 FLA 연산 라이브러리를 분석한다. 청크 기반 선형 어텐션의 Forward/Backward 연산, 상태 전파, Fused Normalization 등 핵심 연산을 코드와 함께 살펴본다.

#sglang #FLA #Flashy Linear Attention #Chunk Processing

2026년 4월 11일

[SGLang] Lightning Attention: 고속 선형 어텐션 구현

SGLang의 Lightning Attention을 분석한다. IO-aware 선형 어텐션의 구현, 청크 기반 처리, 기존 선형 어텐션 대비 속도 향상을 코드와 함께 살펴본다.

#sglang #Lightning Attention #Linear Attention #IO-aware

2026년 4월 11일

[cpython] CPython JIT 최적화: _POP_TWO/_POP_CALL 연산 분해를 통한 성능 향상

CPython JIT 컴파일러에서 불필요한 스택 조작을 제거하여 성능을 개선하는 코드 변경 분석.

#Python #CPython #JIT #Optimization #Performance

2026년 4월 11일

[cpython] Python 3.14 내부 최적화: 가변 인자 Opcode의 스택 관리 개선

CALL_BUILTIN_FAST_WITH_KEYWORDS 옵코드가 인자를 스택에 남기도록 변경되어 에러 발생 시의 스택 복구 효율성이 향상되었습니다.

#CPython #Python3.14 #Optimization #Bytecode #VirtualMachine

2026년 4월 11일

[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입

SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.

#SGLang #LLM #Quantization #CUDA #KernelOptimization

2026년 4월 11일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일

[SGLang] KDA (Kernel-Driven Attention): 커널 기반 선형 어텐션

SGLang의 KDA 선형 어텐션을 분석한다. 커널 함수를 활용한 선형 시간 어텐션, Triton/CutEDSL 커널 구현을 코드와 함께 살펴본다.

#sglang #KDA #Kernel-Driven Attention #Linear Attention

2026년 4월 11일

[SGLang] GDN (Gated Diagonal Net): 게이트 기반 선형 어텐션

SGLang의 GDN 선형 어텐션을 분석한다. Gated Diagonal Net의 선형 복잡도 어텐션 구현, 게이트 메커니즘, FlashInfer/Triton/CutEDSL 커널 선택을 코드와 함께 살펴본다.

#sglang #GDN #Linear Attention #Gated Diagonal Net

2026년 4월 11일

[SGLang] Mamba (SSM): 선형 시간 복잡도 시퀀스 모델링

SGLang의 Mamba 구현을 분석한다. Transformer의 O(n²) 어텐션 대비 O(n) 선형 복잡도를 달성하는 State Space Model의 원리, Selective Scan 알고리즘, SGLang에서의 상태 관리를 코드와 함께 살펴본다.

#sglang #Mamba #SSM #State Space Model #Linear Complexity

2026년 4월 11일

[SGLang] Triton Attention 커널: Python으로 작성하는 GPU 커널

SGLang의 Triton Attention 백엔드를 분석한다. Python으로 GPU 커널을 작성하는 Triton의 장점, Prefill/Decode/Extend 각 단계별 커널 구현을 코드와 함께 살펴본다.

#sglang #Triton #GPU Kernel #Attention Kernel

2026년 4월 11일

[SGLang] Hybrid Attention: Dense-Sparse 동적 전환 전략

SGLang의 Hybrid Attention 백엔드를 분석한다. Dense와 Sparse 어텐션을 동적으로 전환하는 전략, 전환 조건과 임계값 설계를 코드와 함께 살펴본다.

#sglang #Hybrid Attention #Dense-Sparse #Dynamic Switching

2026년 4월 11일

[SGLang] Double Sparsity: H-Sparsity와 T-Sparsity의 이중 최적화

SGLang의 Double Sparsity 백엔드를 분석한다. Head-level과 Token-level 두 가지 희소성을 동시에 활용하는 이중 최적화, Dense Attention 대비 메모리 절감 효과를 코드와 함께 살펴본다.

#sglang #Double Sparsity #H-Sparsity #T-Sparsity #Sparse Attention

2026년 4월 11일

[SGLang] NSA (Narrow Sparse Attention): DeepSeek의 스파스 어텐션

SGLang의 NSA 백엔드를 분석한다. DeepSeek의 Narrow Sparse Attention이 선택적 토큰만 어텐션하는 원리, 인덱서 구조, Triton/TileLang 커널을 코드와 함께 살펴본다.

#sglang #NSA #Sparse Attention #DeepSeek #Selective Attention

2026년 4월 11일