[sglang] SGLang의 add_constant 커널 최적화: 아키텍처 인지 벡터화(Vectorization) 도입대규모 텐서 연산 시 벡터화된 커널을 사용하여 add_constant 성능을 최대 35% 향상시키는 최적화 기법을 분석합니다.#SGLang#CUDA#KernelOptimization#Vectorization#H2002026년 5월 30일댓글 수 로딩 중
[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.#vLLM#DeepSeekV4#CUDA#CuteDSL#KernelOptimization#GPUPerformance#MXFP4#Quantization2026년 5월 9일댓글 수 로딩 중
[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중