[onnxruntime] ONNX Runtime WebGPU: Reduce 연산 최적화를 통한 성능 향상WebGPU 환경에서 ReduceMean 연산 시 발생하는 불필요한 Transpose 오버헤드를 제거하여 모델 추론 속도를 개선한 사례를 분석합니다.#ONNXRuntime#WebGPU#Optimization#Performance#GPGPU2026년 6월 16일댓글 수 로딩 중
[onnxruntime] WebGPU 성능 최적화: Graph Capture 재사용을 위한 Session-level Buffer Pool 도입ONNX Runtime WebGPU EP에서 그래프 캡처 시 발생하는 버퍼 재할당 오버헤드를 줄이기 위한 세션 레벨 버퍼 풀링 기법 분석#WebGPU#ONNXRuntime#Performance#GraphCapture#GenAI2026년 6월 10일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CPU ScatterElements 커널의 멀티스레딩 최적화 분석CPU ScatterElements 연산을 ThreadPool을 활용해 병렬화하여 129배의 성능 향상을 달성한 사례를 분석합니다.#ONNXRuntime#C++#Optimization#MultiThreading#Performance2026년 5월 22일댓글 수 로딩 중
[onnxruntime] Apple M4 Max를 위한 FlashAttention 최적화: 20배 성능 향상 분석WebGPU 기반 FlashAttention을 Apple 실리콘 환경에 맞춰 튜닝하여 최대 20배의 성능 향상을 달성한 기술적 접근을 분석합니다.#ONNXRuntime#WebGPU#FlashAttention#AppleSilicon#PerformanceOptimization2026년 5월 14일댓글 수 로딩 중
[onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선PagedAttention의 FA 경로에서 휴리스틱 기반 max_query_len을 실제 계산값으로 대체하여 성능 향상 및 CUDA 오류를 해결했습니다.#ONNXRuntime#CUDA#FlashAttention#Optimization#LLM2026년 5월 12일댓글 수 로딩 중
[onnxruntime] ONNX Runtime의 RISC-V Vector(RVV) 최적화: SGEMM과 Softmax 성능을 3배로 끌어올리기RISC-V 아키텍처에서 스칼라 연산에 의존하던 ONNX Runtime이 RVV 확장을 통해 SGEMM 및 Softmax 연산 성능을 최대 3.6배 개선했습니다.#ONNXRuntime#RISC-V#RVV#Optimization#MLAS#SIMD2026년 4월 30일댓글 수 로딩 중