[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.#CUDA#CUTLASS#GEMM#FP8#SGLang#SM1202026년 3월 22일댓글 수 로딩 중
[pytorch] Build: vendored_templates 디렉토리에 __init__.py 자동 생성으로 패키지 인식 문제 해결PyTorch setup.py에서 CuTeDSL Grouped MM 템플릿의 vendored_templates 디렉토리에 __init__.py를 자동 생성하여 find_packages가 서브모듈로 인식하도록 수정한 사례를 분석합니다.#PyTorch#Build System#CUTLASS#Inductor#Python Packaging2026년 1월 9일댓글 수 로딩 중