[SGLang] FlashInfer + TensorRT-LLM MoE: 하이브리드 MoE 커널SGLang의 FlashInfer/TensorRT-LLM MoE를 분석한다. FlashInfer와 TensorRT-LLM 커널을 결합한 하이브리드 MoE 구현, 커널별 장단점 비교를 코드와 함께 살펴본다.#sglang#FlashInfer MoE#TensorRT-LLM#Hybrid Kernel2026년 4월 12일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중