[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기

2026년 5월 30일수정: 2026년 5월 30일

PR 링크: vllm-project/vllm#38445 상태: Merged | 변경: +716 / -23

들어가며\n\n대규모 언어 모델(LLM)의 추론 효율성을 높이기 위해 Mixture of Experts(MoE) 구조가 널리 사용되고 있습니다. vLLM은 이러한 MoE 모델의 성능을 극대화하기 위해 다양한 커널 최적화를 수행해왔습니다. 이번 글에서는 MiniMax-M2 모델의 MoE Gate(Router) 연산을 최적화하여 저지연(low-latency) 서빙 환경에서 성능을 최대 32%까지 향상시킨 PR을 분석합니다.\n\nMiniMax-M2 모델의 MoE Gate는 정밀도 유지를 위해 FP32 환경에서 GEMM(Matrix Multiplication)을 수행해야 합니다. 기존 vLLM 구현에서는 입력 텐서(BF16)를 FP32로 변환한 뒤, cuBLAS 등을 이용해 GEMM을 수행했습니다. 하지만 이러한 방식은 저지연 서빙(낮은 Concurrency) 상황에서 불필요한 커널 런치 오버헤드와 메모리 라운드 트립(Memory Round-trip)을 유발합니다. 이번 PR은 이를 해결하기 위해 타입 변환과 GEMM을 하나로 합친 'Fused Kernel'을 도입했습니다.\n\n## 코드 분석: 무엇이 어떻게 바뀌었나?\n\n### 1. Python 레이어: 연산의 단순화\n\n기존에는 모델 실행 시 PyTorch의 표준 함수들을 조합하여 사용했습니다. 이는 유연하지만, 각 함수 호출마다 별도의 GPU 커널이 실행되는 비용이 발생합니다.\n\nBefore (기존 방식):\n`python\n# vllm/model_executor/models/minimax_m2.py (기존 로직)\n# 1. BF16 입력을 FP32로 변환 (Kernel 1)\n# 2. FP32 GEMM 수행 (Kernel 2, 3 - split-K 상황 시)\nrouter_logits = torch.nn.functional.linear(hidden_states.float(), self.wg.weight)\n`\n\nAfter (최적화 방식):\n`python\n# benchmarks/kernels/benchmark_router_gemm.py 및 모델 로직\n# 전용 커널을 호출하여 변환과 GEMM을 한 번에 처리\nif allow_fp32_router_gemm:\n ops.fp32_router_gemm(mat_a, mat_b)\n`\n\n### 2. CUDA 커널: 데이터 로드와 타입 변환의 융합\n\n핵심은 `csrc/libtorch_stable/fp32_router_gemm.cu`에 구현된 Fused Kernel입니다. 이 커널은 메모리에서 데이터를 읽어올 때 즉시 타입 변환을 수행합니다.\n\nAfter (CUDA Implementation):\ncpp\n// bf16 activation: 8개의 bf16을 한 번에 로드(uint4)한 후 float로 변환\ntemplate <>\ndevice forceinline void load_activation<__nv_bfloat16, 8>(\n __nv_bfloat16 const* ptr, float* dst) {\n uint4 v = reinterpret_cast<uint4 const>(ptr);\n __nv_bfloat162 const* v_bf16 = reinterpret_cast<__nv_bfloat162 const>(&v);\n\n #pragma unroll\n for (int i = 0; i < 4; ++i) {\n float2 f2 = __bfloat1622float2(v_bf16[i]);\n dst[i 2] = f2.x;\n dst[i * 2 + 1] = f2.y;\n }\n}\n\n\n위 코드에서 볼 수 있듯이, `load_activation` 함수는 `__nv_bfloat16` 데이터를 읽어오는 즉시 `__bfloat1622float2` 내장 함수를 사용하여 FP32(`float`)로 변환합니다. 이를 통해 별도의 변환 커널을 실행할 필요가 없어졌으며, 변환된 데이터를 다시 전역 메모리에 쓸 필요 없이 레지스터 수준에서 즉시 GEMM 연산에 활용합니다.\n\n### 3. 빌드 시스템 및 아키텍처 최적화\n\n이 최적화는 NVIDIA의 최신 아키텍처인 Hopper(SM90) 이상에서 최상의 성능을 내도록 설계되었습니다. `CMakeLists.txt`와 `cmake/utils.cmake`를 수정하여 호환되는 아키텍처에서만 해당 커널이 빌드되도록 설정했습니다.\n\n`cmake\n# cmake/utils.cmake\nfunction(cuda_archs_sm90plus OUT_CUDA_ARCHS TGT_CUDA_ARCHS)\n if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)\n cuda_archs_loose_intersection(_archs "9.0a;10.0f;11.0f;12.0f" "${TGT_CUDA_ARCHS}")\n else()\n cuda_archs_loose_intersection(_archs "9.0a;10.0a;10.1a;10.3a;12.0a;12.1a" "${TGT_CUDA_ARCHS}")\n endif()\n set(${OUT_CUDA_ARCHS} ${_archs} PARENT_SCOPE)\nendfunction()\n`\n\n## 왜 이게 좋은 최적화인가?\n\n### 1. 커널 런치 오버헤드(Kernel Launch Overhead) 감소\n\nGPU 커널을 실행하는 데는 CPU와 GPU 간의 통신 비용이 발생합니다. 배치 사이즈가 작은 저지연 서빙 환경에서는 실제 연산 시간보다 커널을 준비하고 실행하는 오버헤드가 더 클 수 있습니다. 기존 방식은 최대 3개의 커널(변환 1개 + split-K GEMM 2개)을 실행했지만, 최적화 후에는 단 1개의 커널로 처리됩니다. 이는 특히 Concurrency가 낮은 상황에서 응답 속도(TTFT, TPOT)를 획기적으로 줄여줍니다.\n\n### 2. 메모리 대역폭 효율화\n\n기존 방식은 `BF16 -> FP32` 변환 결과를 메모리에 썼다가 다시 GEMM 커널이 이를 읽어와야 했습니다. Fused Kernel은 이 중간 과정을 생략하고 데이터를 레지스터 내에서 처리하므로 메모리 대역폭 낭비를 막고 전력 효율을 높입니다.\n\n### 3. 성능 벤치마크 결과\n\nNVIDIA GB200 환경에서 테스트한 결과, Concurrency=2인 상황에서 가장 드라마틱한 개선이 확인되었습니다:\n- Output Throughput: +32.2% 향상\n- Mean TTFT (Time to First Token): -29.0% 감소\n- Mean TPOT (Time Per Output Token): -25.2% 감소\n\n이러한 결과는 실시간 대화형 서비스에서 사용자가 체감하는 속도를 크게 개선할 수 있음을 의미합니다.\n\n## 리뷰어 피드백 분석\n\n리뷰어 `wzhao18`은 성능 향상의 주된 원인이 무엇인지 질문했습니다. 이에 대해 작성자는 입력 데이터 타입 캐스팅(BF16 -> FP32)을 GEMM 커널 내부로 융합한 것이 핵심임을 확인해주었습니다. 또한, 이 커널은 MiniMax-M2의 특정 차원(H=3072, E=256)과 작은 배치 사이즈(M<=32)에 최적화되어 설계되었습니다. 이는 범용적인 커널보다 특정 모델의 병목 지점을 정밀 타격하는 'Specialized Kernel' 전략이 실제 프로덕션 환경에서 얼마나 강력한지를 보여줍니다.\n\n## 결론\n\n이번 최적화는 단순히 연산 속도를 높이는 것을 넘어, 서빙 시스템의 구조적 오버헤드를 이해하고 이를 제거한 훌륭한 사례입니다. 특히 저지연 서빙이 중요한 최신 LLM 서비스 트렌드에서, Fused Kernel을 통한 커널 수 최소화는 엔지니어가 반드시 고려해야 할 전략입니다. vLLM은 앞으로도 이러한 하드웨어 친화적인 최적화를 통해 가장 빠른 추론 엔진으로서의 자리를 공고히 할 것으로 기대됩니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

댓글

관련 포스트

PR Analysis 의 다른글

이전글 [sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입
현재글 : [vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기
다음글 [sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합