[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.#vLLM#XPU#MXFP8#Quantization#GEMM#Intel2026년 4월 13일댓글 수 로딩 중
[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석vLLM에 추가된 MXFP8 양자화 지원을 통해 추론 처리량을 최대 42% 향상시키고 MoE 모델의 효율성을 극대화하는 방법을 살펴봅니다.#vLLM#Quantization#MXFP8#MoE#Performance-Optimization2026년 4월 12일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.#SGLang#CI#FlashInfer#MXFP8#Quantization#Testing2026년 3월 30일댓글 수 로딩 중
[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.#Triton#GPU#Optimization#MXFP8#MatMul2025년 12월 8일댓글 수 로딩 중
[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.#Triton#Blackwell#GPU#Optimization#MXFP82025년 12월 2일댓글 수 로딩 중