#Fused MoE

2개의 포스트

[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합

SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.

#sglang #Fused MoE #Triton #Expert Fusion #GEMM

2026년 4월 12일

[SGLang] MoE 전용 양자화: 전문가별 독립 양자화 전략

SGLang의 MoE 전용 양자화를 분석한다. 전문가별 독립적 양자화 스케일 관리, Dense 모델 양자화 대비 차이점, Fused MoE 커널과의 통합을 코드와 함께 살펴본다.

#sglang #MoE Quantization #Expert-wise #Fused MoE

2026년 4월 12일