#MXFP4

7개의 포스트

[vllm] vLLM, DeepSeek V4 모델 성능 최적화: AITER MXFP4 BF16 백엔드 개선

vLLM에서 DeepSeek V4 모델의 성능을 향상시키기 위한 AITER MXFP4 BF16 백엔드 최적화 분석

#vLLM #DeepSeekV4 #LLM #Performance #Optimization #ROCm #AITER #MXFP4

2026년 6월 26일

[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화

ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.

#sglang #ROCm #MXFP4 #Attention #Optimization #Performance #Deepseek

2026년 5월 29일

[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석

vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.

#vLLM #XPU #MXFP4 #Quantization #GEMM #Performance

2026년 5월 13일

[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상

vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.

#vLLM #DeepSeekV4 #CUDA #CuteDSL #KernelOptimization #GPUPerformance #MXFP4 #Quantization

2026년 5월 9일

[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남

vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.

#vLLM #Humming #MoE #Quantization #Performance Optimization #DeepSeek-V4 #MXFP4

2026년 5월 3일

[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상

vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.

#vLLM #MXFP4 #MoE #Quantization #CUTLASS #Performance Optimization #SM100

2026년 4월 18일

[Axolotl] MXFP4 양자화 지원 추가

torchao의 MXFakeQuantizeConfig를 활용한 MXFP4 QAT 지원 구현 분석

#Axolotl #Quantization #MXFP4 #QAT #LLM

2026년 3월 5일