[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.#SGLang#FlashInfer#TRT-LLM#MoE#FP8#최적화#성능#MiniMax-M2.52026년 4월 2일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.#SGLang#CI#FlashInfer#MXFP8#Quantization#Testing2026년 3월 30일댓글 수 로딩 중