#DeepSeek-V2

1개의 포스트

[sglang] [NPU] GLM-4.7-Flash 성능 최적화: Fused Triton 커널로 연산 병목 해결하기

Split과 RMSNorm 연산을 하나로 합친 Fused Kernel을 도입하여 GLM-4.7-Flash 모델의 NPU 추론 성능을 대폭 개선했습니다.

#NPU #Triton #Optimization #DeepSeek-V2 #SGLang #LLM Inference

2026년 6월 30일