#CUTLASS

8개의 포스트

[onnxruntime] ONNX Runtime CUTLASS FMHA: BiasLoader 정렬 문제 해결로 안정성 및 호환성 향상

ONNX Runtime의 CUTLASS FMHA에서 BiasLoader의 정렬 문제를 해결하여 CUDA 커널의 안정성과 호환성을 개선했습니다.

#ONNX Runtime #CUDA #CUTLASS #FMHA #최적화 #성능

2026년 5월 27일

[vllm] vLLM 기술 딥다이브: CUTLASS를 활용한 NVFP4 Linear 커널의 Batch Invariance 최적화

vLLM에서 NVFP4 양자화 연산의 배치 크기 독립적 결과(Batch Invariance)를 보장하고 성능을 극대화한 CUTLASS 커널 개선 사례를 분석합니다.

#vLLM #CUTLASS #NVFP4 #CUDA #Optimization #Blackwell

2026년 5월 23일

[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상

vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.

#vLLM #MXFP4 #MoE #Quantization #CUTLASS #Performance Optimization #SM100

2026년 4월 18일

[SGLang] CUTLASS MoE: 최적화 GEMM 커널 기반 전문가 연산

SGLang의 CUTLASS MoE를 분석한다. NVIDIA CUTLASS 라이브러리를 활용한 고성능 MoE GEMM 커널, Triton 대비 성능 차이, 양자화 지원을 코드와 함께 살펴본다.

#sglang #CUTLASS #MoE #GEMM Kernel #NVIDIA

2026년 4월 12일

[sglang] SGLang Diffusion 모델의 NVFP4 추론 성능 최적화: CUTLASS 도입

Diffusion 모델의 NVFP4 연산 기본 백엔드를 CUTLASS로 전환하여 성능을 대폭 개선하고 벤치마크를 추가했습니다.

#SGLang #Diffusion #NVFP4 #CUTLASS #Performance

2026년 4월 4일

[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리

SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.

#SGLang #FlashInfer #MXFP8 #CUTLASS #TensorRT-LLM #Quantization #Blackwell

2026년 4월 1일

[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입

SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.

#CUDA #CUTLASS #GEMM #FP8 #SGLang #SM120

2026년 3월 22일

[pytorch] Build: vendored_templates 디렉토리에 init.py 자동 생성으로 패키지 인식 문제 해결

PyTorch setup.py에서 CuTeDSL Grouped MM 템플릿의 vendored_templates 디렉토리에 __init__.py를 자동 생성하여 find_packages가 서브모듈로 인식하도록 수정한 사례를 분석합니다.

#PyTorch #Build System #CUTLASS #Inductor #Python Packaging

2026년 1월 9일