#KernelFusion

3개의 포스트

[sglang] DeepSeek NextN을 위한 Fused EH Norm 최적화: 커널 융합으로 성능 극대화하기

DeepSeek 모델의 EH Norm 연산을 커널 융합(Kernel Fusion)으로 최적화하여 연산 효율을 대폭 개선했습니다.

#SGLang #DeepSeek #CUDA #KernelFusion #Optimization

2026년 7월 1일

[transformers] [Hugging Face] n-to-1 커널 퓨전과 파라미터 변환: KernelConfig API의 진화

Transformers 모델의 성능 극대화를 위한 모듈 퓨전 및 가중치 레이아웃 변환 자동화 기법 분석

#HuggingFace #Transformers #KernelFusion #PyTorch #Optimization

2026년 6월 9일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일