#ONNX Runtime

8개의 포스트

[onnxruntime] ONNX Runtime CUDA MoE: 소규모 배치 디코딩을 위한 SoftmaxTopK 라우터 최적화

ONNX Runtime CUDA MoE에서 소규모 배치 디코딩 시 SoftmaxTopK 라우터 성능을 개선하는 방법을 기술합니다.

#ONNX Runtime #CUDA #MoE #최적화 #성능

2026년 6월 12일

[onnxruntime] WebGPU FlashAttention 최적화: 커널 퓨전과 가변 시퀀스 길이 지원으로 성능 극대화

WebGPU FlashAttention의 커널 퓨전과 가변 시퀀스 길이 지원을 통한 성능 개선 분석

#WebGPU #FlashAttention #ONNX Runtime #최적화 #성능 개선 #AI 가속

2026년 6월 11일

[onnxruntime] ONNX Runtime CUDA Graph: 진정한 비동기 추론을 위한 동기화 지점 제거

CUDA Graph Replay 시 강제되던 동기화 지점을 제거하여, IO Binding과 함께 완전한 비동기 GPU 추론 파이프라인을 구축하는 최적화 기법을 소개합니다.

#ONNX Runtime #CUDA #Performance Optimization #Async Inference #CUDA Graph

2026년 6월 2일

[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입

CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.

#ONNX Runtime #LLM #Flash Attention #CPU Optimization #Quantization

2026년 5월 29일

[onnxruntime] ONNX Runtime CUTLASS FMHA: BiasLoader 정렬 문제 해결로 안정성 및 호환성 향상

ONNX Runtime의 CUTLASS FMHA에서 BiasLoader의 정렬 문제를 해결하여 CUDA 커널의 안정성과 호환성을 개선했습니다.

#ONNX Runtime #CUDA #CUTLASS #FMHA #최적화 #성능

2026년 5월 27일

[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화

RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.

#RISC-V #RVV #ONNX Runtime #LLM #Optimization

2026년 5월 23일

[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속

CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.

#ONNX Runtime #LLM #Quantization #SIMD #Performance

2026년 5월 21일

[onnxruntime] ONNX Runtime 스레드 풀의 지능형 대기: Exponential Backoff 도입으로 성능 및 전력 효율성 향상

ONNX Runtime 스레드 풀의 스핀 루프에 Exponential Backoff를 도입하여 성능과 전력 효율성을 개선하는 방법을 분석합니다.

#ONNX Runtime #성능 최적화 #스레드 풀 #Exponential Backoff #병렬 처리

2026년 4월 24일