[onnxruntime] ONNX Runtime QMoE SwiGLU GEMV 최적화: Split-K2 커널로 LLM 추론 가속화ONNX Runtime의 Split-K2 SwiGLU GEMV 커널로 QMoE FC1 레이어 성능을 개선합니다.#ONNXRuntime#CUDA#GEMV#Split-K2#LLM#Optimization#SwiGLU#QMoE2026년 6월 30일댓글 수 로딩 중