#ONNXRuntime

6개의 포스트

[onnxruntime] ONNX Runtime WebGPU: Reduce 연산 최적화를 통한 성능 향상

WebGPU 환경에서 ReduceMean 연산 시 발생하는 불필요한 Transpose 오버헤드를 제거하여 모델 추론 속도를 개선한 사례를 분석합니다.

#ONNXRuntime #WebGPU #Optimization #Performance #GPGPU

2026년 6월 16일

[onnxruntime] WebGPU 성능 최적화: Graph Capture 재사용을 위한 Session-level Buffer Pool 도입

ONNX Runtime WebGPU EP에서 그래프 캡처 시 발생하는 버퍼 재할당 오버헤드를 줄이기 위한 세션 레벨 버퍼 풀링 기법 분석

#WebGPU #ONNXRuntime #Performance #GraphCapture #GenAI

2026년 6월 10일

[onnxruntime] ONNX Runtime CPU ScatterElements 커널의 멀티스레딩 최적화 분석

CPU ScatterElements 연산을 ThreadPool을 활용해 병렬화하여 129배의 성능 향상을 달성한 사례를 분석합니다.

#ONNXRuntime #C++#Optimization #MultiThreading #Performance

2026년 5월 22일

[onnxruntime] Apple M4 Max를 위한 FlashAttention 최적화: 20배 성능 향상 분석

WebGPU 기반 FlashAttention을 Apple 실리콘 환경에 맞춰 튜닝하여 최대 20배의 성능 향상을 달성한 기술적 접근을 분석합니다.

#ONNXRuntime #WebGPU #FlashAttention #AppleSilicon #PerformanceOptimization

2026년 5월 14일

[onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선

PagedAttention의 FA 경로에서 휴리스틱 기반 max_query_len을 실제 계산값으로 대체하여 성능 향상 및 CUDA 오류를 해결했습니다.

#ONNXRuntime #CUDA #FlashAttention #Optimization #LLM

2026년 5월 12일

[onnxruntime] ONNX Runtime의 RISC-V Vector(RVV) 최적화: SGEMM과 Softmax 성능을 3배로 끌어올리기

RISC-V 아키텍처에서 스칼라 연산에 의존하던 ONNX Runtime이 RVV 확장을 통해 SGEMM 및 Softmax 연산 성능을 최대 3.6배 개선했습니다.

#ONNXRuntime #RISC-V #RVV #Optimization #MLAS #SIMD

2026년 4월 30일