[vLLM] MXFP8/MXFP4: 마이크로스케일링 포맷 양자화vLLM의 MXFP8/MXFP4 마이크로스케일링 양자화 구현을 분석한다. Block-32 단위 스케일링의 핵심 구조와 MoE 지원까지.#vllm#quantization#mxfp8#mxfp4#microscaling2026년 4월 7일댓글 수 로딩 중
[triton] Triton에서 cuBLAS를 활용한 mxfp8 및 nvfp4 블록 스케일 행렬 곱셈 벤치마킹Triton의 블록 스케일 행렬 곱셈 성능을 검증하기 위해 cuBLAS 기반의 베이스라인을 도입하고 튜토리얼을 개선했습니다.#Triton#cuBLAS#mxfp8#nvfp4#Performance2025년 12월 19일댓글 수 로딩 중