#DeepSeek-R1

3개의 포스트

[sglang] SGLang: DeepSeek-R1 FP8 GEMM 성능 회귀 문제 해결 및 최적화

FP8 GEMM 연산 시 불필요한 Triton fallback을 제거하여 DeepSeek-R1 모델의 추론 성능을 복구했습니다.

#SGLang #DeepSeek-R1 #FP8 #GEMM #Optimization

2026년 6월 15일

[vllm] Blackwell을 위한 새로운 MLA 백엔드: TOKENSPEED_MLA 분석 (DeepSeek R1 최적화)

Blackwell(SM100) 아키텍처에서 DeepSeek R1의 MLA 성능을 극대화하는 TOKENSPEED_MLA 백엔드 도입 및 분석.

#vLLM #DeepSeek-R1 #MLA #Blackwell #CUDA #Performance-Optimization

2026년 5월 14일

[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화

vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.

#vLLM #LLM #CUDA #Optimization #MLA #DeepSeek-R1

2026년 5월 11일