[onnxruntime] ONNX Runtime CUDA MoE: 소규모 배치 디코딩을 위한 SoftmaxTopK 라우터 최적화ONNX Runtime CUDA MoE에서 소규모 배치 디코딩 시 SoftmaxTopK 라우터 성능을 개선하는 방법을 기술합니다.#ONNX Runtime#CUDA#MoE#최적화#성능2026년 6월 12일댓글 수 로딩 중
[onnxruntime] WebGPU FlashAttention 최적화: 커널 퓨전과 가변 시퀀스 길이 지원으로 성능 극대화WebGPU FlashAttention의 커널 퓨전과 가변 시퀀스 길이 지원을 통한 성능 개선 분석#WebGPU#FlashAttention#ONNX Runtime#최적화#성능 개선#AI 가속2026년 6월 11일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CUDA Graph: 진정한 비동기 추론을 위한 동기화 지점 제거CUDA Graph Replay 시 강제되던 동기화 지점을 제거하여, IO Binding과 함께 완전한 비동기 GPU 추론 파이프라인을 구축하는 최적화 기법을 소개합니다.#ONNX Runtime#CUDA#Performance Optimization#Async Inference#CUDA Graph2026년 6월 2일댓글 수 로딩 중
[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.#ONNX Runtime#LLM#Flash Attention#CPU Optimization#Quantization2026년 5월 29일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CUTLASS FMHA: BiasLoader 정렬 문제 해결로 안정성 및 호환성 향상ONNX Runtime의 CUTLASS FMHA에서 BiasLoader의 정렬 문제를 해결하여 CUDA 커널의 안정성과 호환성을 개선했습니다.#ONNX Runtime#CUDA#CUTLASS#FMHA#최적화#성능2026년 5월 27일댓글 수 로딩 중
[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.#RISC-V#RVV#ONNX Runtime#LLM#Optimization2026년 5월 23일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.#ONNX Runtime#LLM#Quantization#SIMD#Performance2026년 5월 21일댓글 수 로딩 중
[onnxruntime] ONNX Runtime 스레드 풀의 지능형 대기: Exponential Backoff 도입으로 성능 및 전력 효율성 향상ONNX Runtime 스레드 풀의 스핀 루프에 Exponential Backoff를 도입하여 성능과 전력 효율성을 개선하는 방법을 분석합니다.#ONNX Runtime#성능 최적화#스레드 풀#Exponential Backoff#병렬 처리2026년 4월 24일댓글 수 로딩 중