#MiniMax-M2

1개의 포스트

[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기

vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.

#vLLM #CUDA #MoE #Optimization #MiniMax-M2 #LLM Serving

2026년 5월 30일