[onnxruntime] ONNX Runtime QMoE SwiGLU GEMV 최적화: Split-K2 커널로 LLM 추론 가속화ONNX Runtime의 Split-K2 SwiGLU GEMV 커널로 QMoE FC1 레이어 성능을 개선합니다.#ONNXRuntime#CUDA#GEMV#Split-K2#LLM#Optimization#SwiGLU#QMoE2026년 6월 30일댓글 수 로딩 중
[onnxruntime] [ONNX Runtime] SGEMM의 함정에서 벗어나기: GQA 전용 GEMV 커널을 통한 디코딩 최적화ONNX Runtime에서 M=1인 디코딩 상황의 SGEMM 오버헤드를 해결하고, 전용 GEMV 커널로 GQA 성능을 최대 1.5배 끌어올린 최적화 사례를 분석합니다.#ONNX Runtime#GQA#Performance Optimization#GEMV#LLM Inference2026년 6월 26일댓글 수 로딩 중
[onnxruntime] ONNX Runtime: MoE Router GEMV 최적화 및 Bias Fusion 구현GPT-OSS-20B 모델의 MoE 라우터 성능 향상을 위해 MatMulNBits 커널에 특화된 GEMV 경로와 Bias Fusion을 도입했습니다.#ONNX Runtime#CUDA#MoE#GEMV#Optimization2026년 6월 24일댓글 수 로딩 중