[sglang] SGLang: MiniMax-M2.5 MoE 모델을 위한 FP8 FlashInfer TRT-LLM 라우팅 최적화SGLang에서 MiniMax-M2.5 MoE 모델의 FP8 추론 성능을 FlashInfer TRT-LLM으로 최적화한 PR 분석.#SGLang#FlashInfer#TRT-LLM#MoE#FP8#최적화#성능#MiniMax-M2.52026년 4월 2일댓글 수 로딩 중
[sglang] Blackwell GPU에서 TRT-LLM 커널을 DSA 기본값으로 설정Blackwell(SM>=10) GPU에서 dp_size 조건을 제거하고 TRT-LLM 커널을 항상 기본 사용하도록 변경#SGLang#TRT-LLM#Blackwell#DeepSeek2026년 4월 2일댓글 수 로딩 중
[sglang] TRT-LLM Sparse MLA 커널의 prefill 배치 지원TRT-LLM sparse MLA 커널이 prefill 배치에서 올바른 page table 변환을 사용하도록 수정하여 정확도 개선#SGLang#TRT-LLM#MLA#DeepSeek#Attention2026년 4월 1일댓글 수 로딩 중