[sglang] [NPU] GLM-4.7-Flash 성능 최적화: Fused Triton 커널로 연산 병목 해결하기Split과 RMSNorm 연산을 하나로 합친 Fused Kernel을 도입하여 GLM-4.7-Flash 모델의 NPU 추론 성능을 대폭 개선했습니다.#NPU#Triton#Optimization#DeepSeek-V2#SGLang#LLM Inference2026년 6월 30일댓글 수 로딩 중