#Matmul

5개의 포스트

[triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석

Shared Memory 계산 휴리스틱을 개선하여 TF32 Matmul에서 4-stage 파이프라이닝을 활성화하고 GB200 성능을 13% 끌어올린 사례를 분석합니다.

#Triton #GPU #CUDA #Matmul #Optimization #Deep Learning

2026년 5월 27일

[triton] Triton의 Ragged Matmul 메타데이터 계산 최적화: CPU 동기화 없는 효율적인 프로파일링

Ragged matmul의 메타데이터 계산을 다수의 Torch 커널에서 단일 Triton 커널로 통합하여 오버헤드를 획기적으로 줄였습니다.

#Triton #GPU #Performance #Profiling #Matmul

2026년 4월 29일

[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기

Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.

#Triton #GPU #Optimization #HPC #Matmul

2026년 1월 22일

[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상

Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.

#Triton #GPU #CUDA #Optimization #Matmul

2026년 1월 20일

[Triton] MXFP 포맷 출력 matmul 버그 2건 수정

MXFP downcast epilogue에서 scale 마스크 계산과 shared memory overflow 문제를 수정

#Triton #MXFP #Matmul #Bug Fix

2025년 12월 1일