[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.#sglang#CUTLASS#MoE#GEMM Kernel#NVIDIA2026년 4월 12일댓글 수 로딩 중
[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.#sglang#Fused MoE#Triton#Expert Fusion#GEMM2026년 4월 12일댓글 수 로딩 중
[SGLang] 하드웨어별 양자화 튜닝: B200, H100, MI300X 최적 설정SGLang의 하드웨어별 양자화 설정을 분석한다. NVIDIA B200, H100, AMD MI300X 등 GPU별 최적 양자화 파라미터, 하드웨어 특성에 맞춘 커널 선택을 코드와 함께 비교한다.#sglang#Hardware Config#B200#H100#MI300X#Quantization Tuning2026년 4월 12일댓글 수 로딩 중
[SGLang] MoE 전용 양자화: 전문가별 독립 양자화 전략SGLang의 MoE 전용 양자화를 분석한다. 전문가별 독립적 양자화 스케일 관리, Dense 모델 양자화 대비 차이점, Fused MoE 커널과의 통합을 코드와 함께 살펴본다.#sglang#MoE Quantization#Expert-wise#Fused MoE2026년 4월 12일댓글 수 로딩 중
[SGLang] W4A8, W8A8, W4A4: 혼합 정밀도 양자화 스킴SGLang의 혼합 정밀도 양자화 스킴을 분석한다. Weight-4bit/Activation-8bit(W4A8), W8A8, W4A4 등 조합별 구현, 정확도-성능 트레이드오프를 코드와 함께 비교한다.#sglang#Mixed Precision#W4A8#W8A8#Quantization Schemes2026년 4월 12일댓글 수 로딩 중
[SGLang] Compressed Tensors: 통합 양자화 프레임워크SGLang의 Compressed Tensors 프레임워크를 분석한다. 다양한 양자화 방식을 통합하는 프레임워크 설계, 스킴 자동 선택, 가중치 로딩 파이프라인을 코드와 함께 살펴본다.#sglang#Compressed Tensors#Quantization Framework#Unified2026년 4월 12일댓글 수 로딩 중
[SGLang] AutoRound: 자동 라운딩 최적화 양자화SGLang의 AutoRound 양자화를 분석한다. 라운딩 오류를 최적화하는 자동 보정 기법, 기존 RTN 대비 정확도 향상을 코드와 함께 살펴본다.#sglang#AutoRound#Rounding Optimization#Calibration2026년 4월 12일댓글 수 로딩 중
[SGLang] BitsAndBytes: QLoRA와 NF4 동적 양자화SGLang의 BitsAndBytes 통합을 분석한다. NormalFloat4(NF4) 양자화의 원리, QLoRA 추론 지원, 동적 양자화/역양자화 과정을 코드와 함께 살펴본다.#sglang#BitsAndBytes#QLoRA#NF4#Dynamic Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] Block-wise INT8: 블록 단위 정수 양자화SGLang의 Block-wise INT8 양자화를 분석한다. 블록 단위 스케일링의 원리, 텐서별 vs 블록별 양자화 비교, INT8 GEMM 커널 활용을 코드와 함께 살펴본다.#sglang#INT8#Block-wise#Integer Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] AWQ: 활성화 인식 가중치 양자화SGLang의 AWQ 구현을 분석한다. 활성화 분포를 고려한 가중치 양자화의 원리, 채널별 스케일링, GPTQ 대비 장점을 코드와 함께 살펴본다.#sglang#AWQ#Activation-aware#Weight Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] FP4: 4비트 부동소수점 양자화 (NVIDIA NF4)SGLang의 FP4 양자화를 분석한다. NVIDIA NF4 포맷, 4비트 극저정밀도에서의 정확도 유지 전략, FP8 대비 추가 메모리 절감을 코드와 함께 살펴본다.#sglang#FP4#NF4#4-bit Quantization2026년 4월 12일댓글 수 로딩 중
[SGLang] FP8: 8비트 부동소수점 양자화의 구현과 성능SGLang의 FP8 양자화를 분석한다. E4M3/E5M2 포맷의 차이, 동적/정적 양자화 모드, FP16 대비 메모리 절감과 처리량 향상을 코드와 함께 살펴본다.#sglang#FP8#Quantization#8-bit#E4M32026년 4월 12일댓글 수 로딩 중
[SGLang] Warmup: GPU 초기화와 JIT 사전 컴파일SGLang의 Warmup 시스템을 분석한다. 서버 시작 시 GPU를 예열하는 과정, CUDA Graph 캡처, JIT 커널 사전 컴파일, 첫 요청 지연 제거를 코드와 함께 살펴본다.#sglang#Warmup#JIT Compilation#GPU Initialization2026년 4월 12일댓글 수 로딩 중
[SGLang] torch.compile & Inductor: PyTorch 컴파일러 통합SGLang의 torch.compile 통합을 분석한다. PyTorch Inductor를 통한 커널 퓨전, Piecewise 컴파일 전략, 1.5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#torch.compile#Inductor#Kernel Fusion#Compilation2026년 4월 11일댓글 수 로딩 중
[SGLang] Model Loader: 가중치 로딩 인프라와 최적화SGLang의 Model Loader를 분석한다. Safetensors/PyTorch 가중치 로딩, 텐서 병렬 분산, 양자화 가중치 처리, 메모리 매핑 최적화를 코드와 함께 살펴본다.#sglang#Model Loader#Weight Loading#Safetensors2026년 4월 11일댓글 수 로딩 중
[SGLang] Piecewise CUDA Graph: 분할 그래프 컴파일 전략SGLang의 Piecewise CUDA Graph를 분석한다. 모델을 여러 조각으로 분할하여 CUDA Graph를 캡처하는 전략, 동적 형상 지원, 메모리 효율성을 코드와 함께 살펴본다.#sglang#Piecewise CUDA Graph#Graph Compilation#Dynamic Shapes2026년 4월 11일댓글 수 로딩 중
[SGLang] CUDA Graphs: 커널 런칭 오버헤드 제거SGLang의 CUDA Graph Runner를 분석한다. GPU 커널 런칭 오버헤드를 제거하는 CUDA Graph 캡처/재생 메커니즘, 배치 크기별 그래프 관리, 메모리 풀 통합을 코드와 함께 살펴본다.#sglang#CUDA Graphs#Kernel Launch#GPU Optimization2026년 4월 11일댓글 수 로딩 중
[SGLang] ForwardBatch: ScheduleBatch에서 GPU 텐서로의 변환SGLang의 ForwardBatch를 분석한다. CPU의 ScheduleBatch를 GPU 텐서로 변환하는 과정, Prefill/Decode별 텐서 구성, 메모리 레이아웃 최적화를 코드와 함께 살펴본다.#sglang#ForwardBatch#GPU Tensors#Batch Conversion2026년 4월 11일댓글 수 로딩 중
[SGLang] Model Runner: 포워드 패스 실행 엔진의 핵심SGLang의 Model Runner를 분석한다. 모델 포워드 패스 실행, 입력 텐서 준비, Prefill/Decode 모드 분기, 출력 처리를 코드와 함께 살펴본다.#sglang#Model Runner#Forward Pass#Model Execution2026년 4월 11일댓글 수 로딩 중
[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.#sglang#TP Worker#Tensor Parallelism#GPU Worker2026년 4월 11일댓글 수 로딩 중