#GEMM

22개의 포스트

[onnxruntime] ONNX Runtime WebGPU: Intel Xe-3LPG를 위한 고성능 GEMM 최적화 분석

Intel Xe-3LPG 아키텍처에서 vec4 로드와 B 타일 더블 버퍼링을 통해 GEMM 성능을 평균 12.7% 향상시킨 최적화 기법을 분석합니다.

#WebGPU #ONNX Runtime #GEMM #GPU Optimization #Intel Xe-3LPG

2026년 7월 8일

[flashinfer] FlashInfer의 BF16 GEMM 성능 극대화: CUDA Graph와 Cold L2 Cache 도입

FlashInfer의 SM100 타겟 BF16 GEMM 연산에 CUDA Graph와 Cold L2 Cache를 적용하여 오버헤드를 줄이고 성능 안정성을 확보한 사례를 분석합니다.

#FlashInfer #CUDA #GEMM #PerformanceOptimization #GPU

2026년 7월 8일

[flashinfer] FlashInfer의 새로운 TGV GEMM 백엔드: CuTeDSL을 활용한 Blackwell 최적화

FlashInfer에 Blackwell 아키텍처를 위한 고성능 TGV GEMM 백엔드가 추가되었습니다. CuTeDSL 기반의 2-CTA 모드로 성능을 극대화합니다.

#FlashInfer #GEMM #CUDA #Blackwell #CuTeDSL #GPU Optimization

2026년 7월 3일

[sglang] SGLang: AMD GPU 환경에서의 DeepSeek-V4 성능 최적화 분석

AMD GPU 환경에서 MLA GEMM 및 RoPE 연산을 최적화하여 추론 성능을 최대 8.8% 향상시킨 사례 분석

#SGLang #AMD #DeepSeek-V4 #Triton #GEMM #RoPE

2026년 6월 20일

[sglang] SGLang: DeepSeek-R1 FP8 GEMM 성능 회귀 문제 해결 및 최적화

FP8 GEMM 연산 시 불필요한 Triton fallback을 제거하여 DeepSeek-R1 모델의 추론 성능을 복구했습니다.

#SGLang #DeepSeek-R1 #FP8 #GEMM #Optimization

2026년 6월 15일

[triton] Triton AMD StreamK GEMM 커널의 Race Condition 해결: 동기화 로직 최적화 분석

AMD GPU 환경에서 StreamK GEMM 커널의 동기화 결함(Race Condition)을 해결하고 안정성을 확보한 코드 변경 사항을 분석합니다.

#Triton #AMD #GEMM #StreamK #GPU #Concurrency

2026년 6월 13일

[sglang] SGLang Diffusion 모델의 FP8 GEMM 최적화: 41.5% 성능 향상 달성

Ideogram4 모델의 FP8 weight-only linear 연산을 Fused W8A8 FP8 GEMM으로 교체하여 추론 속도를 1.7배 개선했습니다.

#SGLang #Diffusion #FP8 #GEMM #Optimization #CUDA

2026년 6월 11일

[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석

vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.

#vLLM #XPU #MXFP4 #Quantization #GEMM #Performance

2026년 5월 13일

[sglang] SGLang의 FP4 GEMM 성능 최적화: CuTe DSL 백엔드 도입

SGLang에 FlashInfer의 CuTe DSL 기반 FP4 GEMM 백엔드를 추가하여 SM100 아키텍처에서의 연산 성능을 최적화했습니다.

#SGLang #FP4 #GEMM #CUDA #CuTe #FlashInfer

2026년 5월 9일

[flashinfer] FlashInfer, MoE 및 FP8 GEMM 성능 향상을 위한 커널 업데이트

FlashInfer의 MoE 및 FP8 GEMM 커널 업데이트를 통해 성능을 최적화하고 호환성을 개선합니다.

#FlashInfer #GEMM #MoE #FP8 #CUDA #최적화

2026년 5월 8일

[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석

FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.

#FlashInfer #Distributed Computing #CUDA #GEMM #Performance Optimization

2026년 4월 24일

[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상

Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.

#Triton #AMD #GPU #Optimization #GEMM #HPC

2026년 4월 18일

[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석

vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.

#vLLM #XPU #MXFP8 #Quantization #GEMM #Intel

2026년 4월 13일

[SGLang] Fused MoE (Triton): 라우팅과 전문가 연산의 융합

SGLang의 Fused MoE Triton 구현을 분석한다. 라우팅과 전문가 GEMM을 하나의 커널로 융합하는 구조, 200+ 사전 튜닝 설정, 메모리 최적화를 코드와 함께 살펴본다.

#sglang #Fused MoE #Triton #Expert Fusion #GEMM

2026년 4월 12일

[sglang] SGLang DeepSeekV3 Router GEMM 최적화: FlashInfer 커널 도입 및 벤치마킹

DeepSeekV3 라우터 GEMM 성능 최적화를 위해 FlashInfer 커널을 도입하고 벤치마킹합니다.

#SGLang #DeepSeekV3 #FlashInfer #GEMM #최적화 #벤치마킹 #Blackwell #GPU

2026년 4월 4일

[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가

AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보

#Triton #AMD #gfx1250 #GEMM #Tensor Descriptor #Testing

2026년 3월 31일

[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체

DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결

#SGLang #AMD #ROCm #MoE #GEMM

2026년 3월 31일

[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상

Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.

#Triton #AMD #GPU #Optimization #GEMM

2026년 3월 25일

[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입

SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.

#CUDA #CUTLASS #GEMM #FP8 #SGLang #SM120

2026년 3월 22일

[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가

AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #GEMM #WarpPipeline

2026년 2월 5일

[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상

AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 19일

[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석

Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 18일