#CuteDSL

4개의 포스트

[vllm] [vLLM 분석] DeepSeek V4의 Sparse FP8 Compressor 커널 최적화: CuteDSL을 통한 성능 극대화

vLLM에서 DeepSeek V4의 KV 캐시 압축 효율을 높이기 위해 CuteDSL 커널을 최적화하여 최대 1.67배의 성능 향상을 달성한 과정을 살펴봅니다.

#vLLM #DeepSeek-V4 #CUDA #CuteDSL #Kernel-Optimization #FP8

2026년 6월 1일

[vllm] vLLM, GDN Prefill 커널을 CuteDSL로 최적화하여 성능 향상

vLLM의 GDN Prefill 연산에서 새로운 CuteDSL 기반 커널을 도입하여 성능을 크게 개선했습니다.

#vLLM #GDN #CuteDSL #최적화 #성능 #LLM

2026년 5월 26일

[vllm] vLLM, DeepSeek-V4 K 캐시 커널 최적화: CuteDSL 도입으로 성능 향상

vLLM의 DeepSeek-V4 모델에서 K 캐시 커널의 메모리 대역폭 활용도를 높여 성능을 개선한 PR 분석

#vLLM #DeepSeek-V4 #성능 최적화 #GPU 커널 #CuteDSL #Triton

2026년 5월 11일

[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상

vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.

#vLLM #DeepSeekV4 #CUDA #CuteDSL #KernelOptimization #GPUPerformance #MXFP4 #Quantization

2026년 5월 9일