#DeepSeek-V4

6개의 포스트

[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화

vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.

#vLLM #DeepSeek-V4 #CUDA #CuteDSL #Kernel-Optimization #FP8

2026년 6월 1일

[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입

DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석

#AI #LLM #최적화 #성능 #DeepSeek-V4 #sglang #Kernel Fusion

2026년 5월 30일

[vllm] vLLM, DeepSeek-V4 K 캐시 커널 최적화: CuteDSL 도입으로 성능 향상

vLLM의 DeepSeek-V4 모델에서 K 캐시 커널의 메모리 대역폭 활용도를 높여 성능을 개선한 PR 분석

#vLLM #DeepSeek-V4 #성능 최적화 #GPU 커널 #CuteDSL #Triton

2026년 5월 11일

[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석

DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.

#LLM #Quantization #CUDA #DeepSeek-V4 #SGLang #Marlin

2026년 5월 7일

[sglang] AMD ROCm 환경에서의 DeepSeek-V4 성능 최적화: Aiter MHC 커널 통합 분석

SGLang의 AMD 지원 강화: DeepSeek-V4 모델의 MHC 연산을 Aiter 전용 커널로 교체하여 추론 성능을 최적화했습니다.

#DeepSeek-V4 #AMD #ROCm #SGLang #Aiter #Performance Optimization

2026년 5월 4일

[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남

vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.

#vLLM #Humming #MoE #Quantization #Performance Optimization #DeepSeek-V4 #MXFP4

2026년 5월 3일