[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석

2026년 5월 18일수정: 2026년 5월 18일

PR 링크: sgl-project/sglang#25569 상태: Merged | 변경: +6 / -0

들어가며

최근 대규모 언어 모델(LLM)의 발전 속도는 눈부십니다. 특히 Mixture-of-Experts (MoE) 아키텍처는 파라미터 수를 늘리면서도 추론 시 활성화되는 파라미터 수를 제한하여 효율성을 높이는 방식으로 주목받고 있습니다. SGLang은 이러한 LLM 추론을 위한 고성능 라이브러리이며, 지속적인 최적화를 통해 더 빠른 추론 속도를 제공하고자 노력하고 있습니다. 이번 PR은 SGLang에 DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 개선하는 것을 목표로 합니다.

MoE 모델은 여러 개의 전문가(expert) 네트워크를 가지고 있으며, 라우터(router) 네트워크가 입력에 따라 어떤 전문가를 사용할지 결정합니다. Fused MoE는 이러한 전문가 네트워크와 라우팅 과정을 GPU 커널 레벨에서 최적화하여 통신 오버헤드를 줄이고 연산 효율성을 극대화하는 기법입니다. Triton은 OpenAI에서 개발한 GPU 프로그래밍 언어로, Python과 유사한 문법으로 고성능 GPU 커널을 쉽게 작성할 수 있게 해줍니다.

이 PR은 DeepSeekV4 모델이 MoE 아키텍처를 사용할 때, Triton으로 구현된 Fused MoE 커널을 활용할 수 있도록 지원을 확장합니다. 이를 통해 DeepSeekV4 모델의 추론 성능을 한 단계 끌어올릴 수 있을 것으로 기대됩니다.

코드 분석

이번 PR은 주로 sglang/benchmark/kernels/fused_moe_triton/ 디렉토리 내의 두 파일에 걸쳐 변경 사항을 포함합니다.

1. `common_utils.py` 파일 변경

이 파일은 Fused MoE 커널과 관련된 공통 유틸리티 함수들을 정의하고 있습니다. 주요 변경 사항은 get_model_config 함수 내에서 지원하는 모델 아키텍처 목록에 DeepseekV4ForCausalLM을 추가한 것입니다.

Before:

def get_model_config(
    model_name_or_path: str,
    *, # Only keyword arguments after this
    trust_remote_code: bool = False,
) -> Dict[str, Any]:
    # ... (중략) ...
    if model_name_or_path in [
        "DeepseekV2ForCausalLM",
        "DeepseekV3ForCausalLM",
        "DeepseekV32ForCausalLM",
        "Glm4MoeForCausalLM",
        "GlmMoeDsaForCausalLM",
        "MistralLarge3ForCausalLM",
    ]:
        # ... (중략) ...

After:

def get_model_config(
    model_name_or_path: str,
    *, # Only keyword arguments after this
    trust_remote_code: bool = False,
) -> Dict[str, Any]:
    # ... (중략) ...
    if model_name_or_path in [
        "DeepseekV2ForCausalLM",
        "DeepseekV3ForCausalLM",
        "DeepseekV32ForCausalLM",
+       "DeepseekV4ForCausalLM",
        "Glm4MoeForCausalLM",
        "GlmMoeDsaForCausalLM",
        "MistralLarge3ForCausalLM",
    ]:
        # ... (중략) ...

설명: get_model_config 함수는 모델의 이름이나 경로를 받아 해당 모델의 설정을 로드하는 역할을 합니다. 이 함수는 내부적으로 모델의 아키텍처를 식별하여 특정 최적화나 커널 적용 여부를 결정하는 데 사용됩니다. DeepseekV4ForCausalLM 아키텍처를 지원 목록에 추가함으로써, SGLang은 이제 이 모델에 대해서도 Fused MoE Triton 커널을 적용할 수 있게 됩니다. 이는 단순히 새로운 모델을 지원하는 것을 넘어, 해당 모델의 특성에 맞는 최적화 로직을 적용하기 위한 첫걸음입니다.

2. `tuning_fused_moe_triton.py` 파일 변경

이 파일은 Fused MoE Triton 커널의 튜닝 및 실행 로직을 담당합니다. 주요 변경 사항은 prepare 함수 내의 run 함수에서 DeepSeekV4 모델의 특성을 고려하여 MoeRunnerConfig를 설정하는 부분입니다.

Before:

    def run():
        moe_runner_config = MoeRunnerConfig(
            inplace=True,
        )

        with override_config(config):
            # ... (중략) ...

After:

    def run():
+       model_config = get_config(args.model, trust_remote_code=True)
+       architecture = model_config.architectures[0]
+       is_dsv4 = architecture == "DeepseekV4ForCausalLM"
         moe_runner_config = MoeRunnerConfig(
             inplace=True,
+            swiglu_limit=10.0 if is_dsv4 else None,
         )

         with override_config(config):
             # ... (중략) ...

설명:

모델 아키텍처 확인: get_config(args.model, trust_remote_code=True)를 사용하여 현재 실행 중인 모델의 Hugging Face 설정을 로드합니다. 이 설정에서 architectures[0]을 통해 모델의 주 아키텍처 이름을 가져옵니다. is_dsv4 변수는 이 아키텍처가 DeepseekV4ForCausalLM인지 여부를 나타냅니다.
swiglu_limit 설정: DeepSeekV4 모델이 DeepseekV4ForCausalLM인 경우, MoeRunnerConfig에 swiglu_limit=10.0을 설정합니다. 그렇지 않은 경우에는 None으로 유지됩니다.

swiglu_limit이란 무엇인가?

SwiGLU는 LLM에서 사용되는 활성화 함수(activation function) 중 하나로, GLU(Gated Linear Unit)의 변형입니다. SwiGLU는 기존 GLU보다 더 나은 성능을 보이는 것으로 알려져 있습니다. MoE 모델에서는 각 전문가 네트워크의 Feed-Forward Network (FFN) 레이어에서 활성화 함수로 SwiGLU를 사용하는 경우가 많습니다.

swiglu_limit 파라미터는 Triton 커널 내부에서 SwiGLU 계산 시 적용될 수 있는 특정 제약 조건이나 스케일링 팩터를 의미할 가능성이 높습니다. DeepSeekV4 모델은 SwiGLU를 사용할 때 특정 값(여기서는 10.0)으로 제한하는 것이 성능이나 안정성 측면에서 이점이 있을 수 있습니다. 이 PR은 DeepSeekV4의 아키텍처 특성을 파악하고, 해당 모델에 최적화된 swiglu_limit 값을 적용함으로써 Triton 커널의 효율성을 높이고자 합니다.

이 변경은 DeepSeekV4 모델이 Fused MoE 커널을 사용할 때, 해당 모델에 특화된 하이퍼파라미터 튜닝을 동적으로 적용하여 성능을 최적화하는 메커니즘을 구현한 것입니다.

왜 이게 좋은가?

이 PR은 다음과 같은 이유로 좋은 최적화 및 개선이라고 할 수 있습니다.

모델 특화 최적화: 단순히 새로운 모델을 지원하는 것을 넘어, DeepSeekV4 모델의 아키텍처적 특성(예: SwiGLU 활성화 함수의 사용 방식)을 파악하고 이에 맞는 Triton 커널 설정을 동적으로 적용했습니다. 이는 범용적인 최적화보다 훨씬 더 높은 성능 향상을 기대할 수 있게 합니다.
Triton 커널 활용: Triton은 Python 코드로 고성능 GPU 커널을 쉽게 작성하고 최적화할 수 있게 해주는 강력한 도구입니다. Fused MoE와 같은 복잡한 연산을 Triton으로 구현함으로써, GPU 하드웨어의 잠재력을 최대한 활용하고 C++/CUDA 코드 작성의 복잡성을 줄일 수 있습니다.
성능 향상: PR 설명에 첨부된 이미지(비록 실제 성능 수치는 없지만)는 DeepSeekV4 모델에 대한 Fused MoE Triton autotune 지원이 정상적으로 작동함을 보여줍니다. 이는 추론 속도 향상으로 이어질 가능성이 높습니다. 일반적으로 Fused MoE 커널은 메모리 접근 패턴을 최적화하고, 전문가 간의 통신 오버헤드를 줄여 상당한 성능 향상을 가져옵니다. DeepSeekV4와 같이 MoE 구조를 적극적으로 활용하는 모델에서는 그 효과가 더욱 클 것입니다.
확장성: common_utils.py에 모델 아키텍처를 추가하는 방식은 향후 새로운 MoE 모델이 등장했을 때 Fused MoE Triton 커널 지원을 쉽게 확장할 수 있는 기반을 마련합니다. 또한, tuning_fused_moe_triton.py에서 모델별 설정을 분기하는 방식은 다양한 모델에 대한 맞춤형 최적화를 용이하게 합니다.

일반적 교훈:

모델 아키텍처 이해의 중요성: LLM 추론 성능 최적화의 핵심은 모델의 내부 아키텍처와 연산 방식을 깊이 이해하는 것입니다. 이를 바탕으로 커널 레벨에서의 맞춤형 최적화가 가능해집니다.
Triton의 유용성: 복잡한 GPU 연산을 최적화해야 할 때 Triton은 매우 효과적인 솔루션입니다. Python 친화적인 인터페이스로 개발 생산성을 높이면서도 고성능을 달성할 수 있습니다.
동적 튜닝 및 설정: 하드코딩된 설정보다는 모델의 특성에 따라 동적으로 파라미터를 조정하는 방식이 더 유연하고 효과적인 성능 최적화를 가능하게 합니다.

리뷰 및 추가 논의

제공된 PR 정보에는 리뷰 댓글이 포함되어 있지 않아, 리뷰어들의 구체적인 피드백을 분석에 반영하기는 어렵습니다. 하지만 PR 설명에 포함된 이미지와 체크리스트 항목들은 이 PR이 단순히 코드 변경에 그치지 않고, 성능 검증, 테스트, 문서화 등 SGLang의 엄격한 개발 프로세스를 따르고자 했음을 보여줍니다. 특히 "Provide accuracy and speed benchmark results" 항목은 이 PR의 핵심 목표가 성능 향상임을 재확인시켜 줍니다.

References

DeepSeek-V4 Model Documentation (Hypothetical) - 실제 공식 문서가 존재하지 않을 수 있으나, 관련 모델 정보 링크
Triton Documentation - Triton GPU 프로그래밍 언어 공식 문서
Mixture of Experts (MoE) in Deep Learning - MoE 아키텍처 관련 논문 (참고용)
SwiGLU Activation Function - SwiGLU 활성화 함수 관련 논문 (참고용)

참고 자료

https://triton-lang.org/main/getting-started/tutorials.html

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [sglang] SGLang, 레이어별 오프로딩 기본값 설정을 통한 인코더/VAE 성능 최적화
현재글 : [sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석
다음글 [transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기

댓글

관련 포스트

PR Analysis 의 다른글