[sglang] Cutlass FP8 Blockwise GEMM 최적화: 불필요한 패딩 제거로 GPU 성능 향상Cutlass FP8 GEMM에서 반복적인 액티베이션 패딩을 제거하여 GPU 커널 오버헤드를 줄이고 처리량을 2.1% 개선한 최적화.#SGLang#GPU Optimization#FP8 Quantization#Deep Learning Inference#Cutlass#Performance Tuning2026년 6월 12일댓글 수 로딩 중