[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.#vLLM#DeepSeek-V4#CUDA#CuteDSL#Kernel-Optimization#FP82026년 6월 1일댓글 수 로딩 중
[vllm] vLLM, GDN Prefill 커널을 CuteDSL로 최적화하여 성능 향상vLLM의 GDN Prefill 연산에서 새로운 CuteDSL 기반 커널을 도입하여 성능을 크게 개선했습니다.#vLLM#GDN#CuteDSL#최적화#성능#LLM2026년 5월 26일댓글 수 로딩 중
[vllm] vLLM, DeepSeek-V4 K 캐시 커널 최적화: CuteDSL 도입으로 성능 향상vLLM의 DeepSeek-V4 모델에서 K 캐시 커널의 메모리 대역폭 활용도를 높여 성능을 개선한 PR 분석#vLLM#DeepSeek-V4#성능 최적화#GPU 커널#CuteDSL#Triton2026년 5월 11일댓글 수 로딩 중
[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.#vLLM#DeepSeekV4#CUDA#CuteDSL#KernelOptimization#GPUPerformance#MXFP4#Quantization2026년 5월 9일댓글 수 로딩 중