[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.#sglang#Fused MoE#Triton#Expert Fusion#GEMM2026년 4월 12일댓글 수 로딩 중
[SGLang] MoE 전용 양자화: 전문가별 독립 양자화 전략SGLang의 MoE 전용 양자화를 분석한다. 전문가별 독립적 양자화 스케일 관리, Dense 모델 양자화 대비 차이점, Fused MoE 커널과의 통합을 코드와 함께 살펴본다.#sglang#MoE Quantization#Expert-wise#Fused MoE2026년 4월 12일댓글 수 로딩 중