#fusion

2개의 포스트

[vLLM] Compilation Fusion Passes: 컴파일 퓨전 최적화

vLLM의 torch.compile 기반 커널 퓨전 패스를 분석한다. RMSNorm+Quantization 퓨전, 패턴 매칭 기반 최적화의 구현을 살펴본다.

#vllm #compilation #fusion #torch-compile #optimization

2026년 4월 8일

[sglang] sglang 성능 최적화: torch.compile 퓨전 복원을 통한 TopK 후처리 개선

sglang의 TopK 후처리에서 torch.compile 퓨전을 복원하여 성능을 개선한 PR 분석

#sglang #performance #optimization #torch.compile #fusion #CUDA

2026년 4월 7일