[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.#vLLM#DeepSeek-V4#CUDA#CuteDSL#Kernel-Optimization#FP82026년 6월 1일댓글 수 로딩 중