[flashinfer] FlashInfer의 TRTLLM-Gen MoE 라우팅 최적화: 레지스터 압박 해소와 성능 극대화

2026년 6월 29일수정: 2026년 6월 29일

PR 링크: flashinfer-ai/flashinfer#3751 상태: Merged | 변경: +292 / -51

들어가며

최신 대규모 언어 모델(LLM)에서 Mixture-of-Experts(MoE) 아키텍처는 필수적인 요소가 되었습니다. 하지만 MoE의 라우팅 단계는 많은 전문가(Expert)와 토큰을 처리할 때 레지스터 압박(Register Pressure)으로 인한 성능 저하가 빈번하게 발생합니다. 특히 고정된 스레드 블록 크기를 사용할 경우, 작은 워크로드에서는 리소스 낭비가, 큰 워크로드에서는 과도한 스필링(Spilling)이 발생합니다. 본 PR은 flashinfer-ai/flashinfer의 TRTLLM-Gen MoE 라우팅 커널을 개선하여, 워크로드 크기에 따라 스레드 블록 크기를 동적으로 선택함으로써 성능을 최적화했습니다.

코드 분석

1. 동적 스레드 블록 크기 도입 (`trtllm_fused_moe_routing_custom.cu`)

기존에는 모든 상황에서 고정된 스레드 블록 크기를 사용했으나, 이번 변경으로 256, 512, 1024 스레드 블록 크기를 지원하는 템플릿 커널이 추가되었습니다.

Before:

// 기존에는 고정된 NumThreads를 사용
__global__ void __cluster_dims__(NumBlocksPerCluster, 1, 1) __launch_bounds__(NumThreads)
    routingIndicesClusterKernel(KernelParams params) { ... }

After:

// 템플릿을 통해 ClusterBlockDim을 동적으로 설정
template <typename KernelParams, int ClusterBlockDim = NumThreads>
__global__ void __cluster_dims__(NumBlocksPerCluster, 1, 1) __launch_bounds__(ClusterBlockDim)
    routingIndicesClusterKernel(KernelParams params) { ... }

이 변경을 통해 커널은 mNumTokens에 따라 적절한 블록 크기를 선택하여 실행됩니다. 예를 들어, 토큰 수가 적을 때는 더 작은 블록을 사용하여 레지스터 사용량을 최적화하고, 토큰 수가 많을 때는 더 큰 블록을 사용하여 병렬성을 극대화합니다.

워크로드 기반의 휴리스틱: 모든 상황에 맞는 단일 커널은 없습니다. 토큰 수나 전문가 수에 따라 커널 실행 설정을 분기하는 것이 필수적입니다.
컴파일 타임 최적화: C++ 템플릿 메타프로그래밍을 활용하여 유효한 커널 경로만 생성함으로써 런타임 오버헤드를 최소화할 수 있습니다.
레지스터 관리: 고성능 CUDA 커널 작성 시, __launch_bounds__와 블록 크기 조절을 통해 레지스터 스필링을 제어하는 것이 성능의 핵심입니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [vllm] vLLM의 성능 극대화: Helion 커널을 활용한 fused_qk_norm_rope 최적화
현재글 : [flashinfer] FlashInfer의 TRTLLM-Gen MoE 라우팅 최적화: 레지스터 압박 해소와 성능 극대화
다음글 [open-webui] Open WebUI 성능 최적화: Svelte 컴포넌트에서 불필요한 HTML 재정제 방지

[flashinfer] FlashInfer의 TRTLLM-Gen MoE 라우팅 최적화: 레지스터 압박 해소와 성능 극대화

들어가며

코드 분석

1. 동적 스레드 블록 크기 도입 (`trtllm_fused_moe_routing_custom.cu`)

2. 라우팅 정책의 유연성 확보

왜 이게 좋은가

성능 수치

교훈

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글