[vllm] vLLM, DeepSeek V4 모델 성능 최적화: AITER MXFP4 BF16 백엔드 개선vLLM에서 DeepSeek V4 모델의 성능을 향상시키기 위한 AITER MXFP4 BF16 백엔드 최적화 분석#vLLM#DeepSeekV4#LLM#Performance#Optimization#ROCm#AITER#MXFP42026년 6월 26일댓글 수 로딩 중
[vllm] vLLM DeepSeek V4 ROCm MTP 지원: 하드웨어 최적화와 추론 성능 향상DeepSeek V4 모델의 ROCm MTP 지원을 통해 추론 성능을 크게 향상시킨 vLLM PR 분석.#vLLM#ROCm#DeepSeekV4#MTP#SpeculativeDecoding#Triton#FP8#Optimization2026년 5월 24일댓글 수 로딩 중
[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석#AI#LLM#Optimization#Triton#DeepSeekV4#MoE2026년 5월 18일댓글 수 로딩 중
[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.#vLLM#DeepSeekV4#CUDA#CuteDSL#KernelOptimization#GPUPerformance#MXFP4#Quantization2026년 5월 9일댓글 수 로딩 중