#DeepSeekV4

4개의 포스트

[vllm] vLLM, DeepSeek V4 모델 성능 최적화: AITER MXFP4 BF16 백엔드 개선

vLLM에서 DeepSeek V4 모델의 성능을 향상시키기 위한 AITER MXFP4 BF16 백엔드 최적화 분석

#vLLM #DeepSeekV4 #LLM #Performance #Optimization #ROCm #AITER #MXFP4

2026년 6월 26일

[vllm] vLLM DeepSeek V4 ROCm MTP 지원: 하드웨어 최적화와 추론 성능 향상

DeepSeek V4 모델의 ROCm MTP 지원을 통해 추론 성능을 크게 향상시킨 vLLM PR 분석.

#vLLM #ROCm #DeepSeekV4 #MTP #SpeculativeDecoding #Triton #FP8 #Optimization

2026년 5월 24일

[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석

DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석

#AI #LLM #Optimization #Triton #DeepSeekV4 #MoE

2026년 5월 18일

[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상

vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.

#vLLM #DeepSeekV4 #CUDA #CuteDSL #KernelOptimization #GPUPerformance #MXFP4 #Quantization

2026년 5월 9일