[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.#vLLM#DeepSeek-V4#CUDA#CuteDSL#Kernel-Optimization#FP82026년 6월 1일댓글 수 로딩 중
[sglang] DeepSeek-V4의 Latency 최적화: Fused mHC Post/Pre Kernel 도입DeepSeek-V4 모델의 추론 속도 향상을 위한 Fused mHC Post/Pre Kernel 도입 분석#AI#LLM#최적화#성능#DeepSeek-V4#sglang#Kernel Fusion2026년 5월 30일댓글 수 로딩 중
[vllm] vLLM, DeepSeek-V4 K 캐시 커널 최적화: CuteDSL 도입으로 성능 향상vLLM의 DeepSeek-V4 모델에서 K 캐시 커널의 메모리 대역폭 활용도를 높여 성능을 개선한 PR 분석#vLLM#DeepSeek-V4#성능 최적화#GPU 커널#CuteDSL#Triton2026년 5월 11일댓글 수 로딩 중
[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.#LLM#Quantization#CUDA#DeepSeek-V4#SGLang#Marlin2026년 5월 7일댓글 수 로딩 중
[sglang] AMD ROCm 환경에서의 DeepSeek-V4 성능 최적화: Aiter MHC 커널 통합 분석SGLang의 AMD 지원 강화: DeepSeek-V4 모델의 MHC 연산을 Aiter 전용 커널로 교체하여 추론 성능을 최적화했습니다.#DeepSeek-V4#AMD#ROCm#SGLang#Aiter#Performance Optimization2026년 5월 4일댓글 수 로딩 중
[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.#vLLM#Humming#MoE#Quantization#Performance Optimization#DeepSeek-V4#MXFP42026년 5월 3일댓글 수 로딩 중