SGLang

[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산

SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.

#sglang #CUTLASS #MoE #GEMM Kernel #NVIDIA

2026년 4월 12일

[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합

SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.

#sglang #Fused MoE #Triton #Expert Fusion #GEMM

2026년 4월 12일

[SGLang] 하드웨어별 양자화 튜닝: B200, H100, MI300X 최적 설정

SGLang의 하드웨어별 양자화 설정을 분석한다. NVIDIA B200, H100, AMD MI300X 등 GPU별 최적 양자화 파라미터, 하드웨어 특성에 맞춘 커널 선택을 코드와 함께 비교한다.

#sglang #Hardware Config #B200 #H100 #MI300X #Quantization Tuning

2026년 4월 12일

[SGLang] MoE 전용 양자화: 전문가별 독립 양자화 전략

SGLang의 MoE 전용 양자화를 분석한다. 전문가별 독립적 양자화 스케일 관리, Dense 모델 양자화 대비 차이점, Fused MoE 커널과의 통합을 코드와 함께 살펴본다.

#sglang #MoE Quantization #Expert-wise #Fused MoE

2026년 4월 12일

[SGLang] W4A8, W8A8, W4A4: 혼합 정밀도 양자화 스킴

SGLang의 혼합 정밀도 양자화 스킴을 분석한다. Weight-4bit/Activation-8bit(W4A8), W8A8, W4A4 등 조합별 구현, 정확도-성능 트레이드오프를 코드와 함께 비교한다.

#sglang #Mixed Precision #W4A8 #W8A8 #Quantization Schemes

2026년 4월 12일

[SGLang] Compressed Tensors: 통합 양자화 프레임워크

SGLang의 Compressed Tensors 프레임워크를 분석한다. 다양한 양자화 방식을 통합하는 프레임워크 설계, 스킴 자동 선택, 가중치 로딩 파이프라인을 코드와 함께 살펴본다.

#sglang #Compressed Tensors #Quantization Framework #Unified

2026년 4월 12일

[SGLang] AutoRound: 자동 라운딩 최적화 양자화

SGLang의 AutoRound 양자화를 분석한다. 라운딩 오류를 최적화하는 자동 보정 기법, 기존 RTN 대비 정확도 향상을 코드와 함께 살펴본다.

#sglang #AutoRound #Rounding Optimization #Calibration

2026년 4월 12일

[SGLang] BitsAndBytes: QLoRA와 NF4 동적 양자화

SGLang의 BitsAndBytes 통합을 분석한다. NormalFloat4(NF4) 양자화의 원리, QLoRA 추론 지원, 동적 양자화/역양자화 과정을 코드와 함께 살펴본다.

#sglang #BitsAndBytes #QLoRA #NF4 #Dynamic Quantization

2026년 4월 12일

[SGLang] Block-wise INT8: 블록 단위 정수 양자화

SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.

#sglang #INT8 #Block-wise #Integer Quantization

2026년 4월 12일

[SGLang] AWQ: 활성화 인식 가중치 양자화

SGLang의 AWQ 구현을 분석한다. 활성화 분포를 고려한 가중치 양자화의 원리, 채널별 스케일링, GPTQ 대비 장점을 코드와 함께 살펴본다.

#sglang #AWQ #Activation-aware #Weight Quantization

2026년 4월 12일

[SGLang] FP4: 4비트 부동소수점 양자화 (NVIDIA NF4)

SGLang의 FP4 양자화를 분석한다. NVIDIA NF4 포맷, 4비트 극저정밀도에서의 정확도 유지 전략, FP8 대비 추가 메모리 절감을 코드와 함께 살펴본다.

#sglang #FP4 #NF4 #4-bit Quantization

2026년 4월 12일

[SGLang] FP8: 8비트 부동소수점 양자화의 구현과 성능

SGLang의 FP8 양자화를 분석한다. E4M3/E5M2 포맷의 차이, 동적/정적 양자화 모드, FP16 대비 메모리 절감과 처리량 향상을 코드와 함께 살펴본다.

#sglang #FP8 #Quantization #8-bit #E4M3

2026년 4월 12일

[SGLang] Warmup: GPU 초기화와 JIT 사전 컴파일

SGLang의 Warmup 시스템을 분석한다. 서버 시작 시 GPU를 예열하는 과정, CUDA Graph 캡처, JIT 커널 사전 컴파일, 첫 요청 지연 제거를 코드와 함께 살펴본다.

#sglang #Warmup #JIT Compilation #GPU Initialization

2026년 4월 12일

[SGLang] torch.compile & Inductor: PyTorch 컴파일러 통합

SGLang의 torch.compile 통합을 분석한다. PyTorch Inductor를 통한 커널 퓨전, Piecewise 컴파일 전략, 1.5x 성능 향상의 원리를 코드와 함께 살펴본다.

#sglang #torch.compile #Inductor #Kernel Fusion #Compilation

2026년 4월 11일

[SGLang] Model Loader: 가중치 로딩 인프라와 최적화

SGLang의 Model Loader를 분석한다. Safetensors/PyTorch 가중치 로딩, 텐서 병렬 분산, 양자화 가중치 처리, 메모리 매핑 최적화를 코드와 함께 살펴본다.

#sglang #Model Loader #Weight Loading #Safetensors

2026년 4월 11일

[SGLang] Piecewise CUDA Graph: 분할 그래프 컴파일 전략

SGLang의 Piecewise CUDA Graph를 분석한다. 모델을 여러 조각으로 분할하여 CUDA Graph를 캡처하는 전략, 동적 형상 지원, 메모리 효율성을 코드와 함께 살펴본다.

#sglang #Piecewise CUDA Graph #Graph Compilation #Dynamic Shapes

2026년 4월 11일

[SGLang] CUDA Graphs: 커널 런칭 오버헤드 제거

SGLang의 CUDA Graph Runner를 분석한다. GPU 커널 런칭 오버헤드를 제거하는 CUDA Graph 캡처/재생 메커니즘, 배치 크기별 그래프 관리, 메모리 풀 통합을 코드와 함께 살펴본다.

#sglang #CUDA Graphs #Kernel Launch #GPU Optimization

2026년 4월 11일

[SGLang] ForwardBatch: ScheduleBatch에서 GPU 텐서로의 변환

SGLang의 ForwardBatch를 분석한다. CPU의 ScheduleBatch를 GPU 텐서로 변환하는 과정, Prefill/Decode별 텐서 구성, 메모리 레이아웃 최적화를 코드와 함께 살펴본다.

#sglang #ForwardBatch #GPU Tensors #Batch Conversion

2026년 4월 11일

[SGLang] Model Runner: 포워드 패스 실행 엔진의 핵심

SGLang의 Model Runner를 분석한다. 모델 포워드 패스 실행, 입력 텐서 준비, Prefill/Decode 모드 분기, 출력 처리를 코드와 함께 살펴본다.

#sglang #Model Runner #Forward Pass #Model Execution

2026년 4월 11일

[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계

SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.

#sglang #TP Worker #Tensor Parallelism #GPU Worker

2026년 4월 11일