#MXFP8

8개의 포스트

[vllm] vLLM ROCm 환경에서 FlyDSL을 활용한 MXFP8 MoE 성능 최적화

ROCm gfx950 환경에서 FlyDSL 기반 MXFP8 MoE 커널을 통합하여 추론 성능을 최대 20% 향상하고 백엔드 선택 로직을 개선했습니다.

#vLLM #ROCm #MoE #MXFP8 #Performance #FlyDSL

2026년 6월 27일

[sglang] Ascend NPU에서 Qwen3 모델을 위한 W8A8 MXFP8 양자화 지원

Ascend NPU 환경에서 Qwen3 모델의 추론 성능을 높이기 위해 MXFP8 온라인 및 오프라인 양자화 기능을 구현했습니다.

#Ascend NPU #Quantization #MXFP8 #LLM #SGLang

2026년 6월 16일

[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석

vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.

#vLLM #XPU #MXFP8 #Quantization #GEMM #Intel

2026년 4월 13일

[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석

vLLM에 추가된 MXFP8 양자화 지원을 통해 추론 처리량을 최대 42% 향상시키고 MoE 모델의 효율성을 극대화하는 방법을 살펴봅니다.

#vLLM #Quantization #MXFP8 #MoE #Performance-Optimization

2026년 4월 12일

[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리

SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.

#SGLang #FlashInfer #MXFP8 #CUTLASS #TensorRT-LLM #Quantization #Blackwell

2026년 4월 1일

[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용

SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.

#SGLang #CI #FlashInfer #MXFP8 #Quantization #Testing

2026년 3월 30일

[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화

Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.

#Triton #GPU #Optimization #MXFP8 #MatMul

2025년 12월 8일

[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화

Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.

#Triton #Blackwell #GPU #Optimization #MXFP8

2025년 12월 2일