[vllm] vLLM의 성능 극대화: Helion 커널을 활용한 fused_qk_norm_rope 최적화vLLM에 Helion 커널을 도입하여 fused_qk_norm_rope 연산 성능을 H100 기준 최대 1.38배 향상시킨 사례 분석.#vLLM#Helion#KernelOptimization#CUDA#LLM2026년 6월 29일댓글 수 로딩 중