[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.#ONNX Runtime#LLM#Quantization#SIMD#Performance2026년 5월 21일댓글 수 로딩 중
[onnxruntime] ONNX Runtime의 RISC-V Vector(RVV) 최적화: SGEMM과 Softmax 성능을 3배로 끌어올리기RISC-V 아키텍처에서 스칼라 연산에 의존하던 ONNX Runtime이 RVV 확장을 통해 SGEMM 및 Softmax 연산 성능을 최대 3.6배 개선했습니다.#ONNXRuntime#RISC-V#RVV#Optimization#MLAS#SIMD2026년 4월 30일댓글 수 로딩 중