#Kernel Programming

1개의 포스트

[triton] Triton 커널 최적화: Mask Sorting을 통한 Reduction 연산 가속화

Triton의 reduction 연산에서 불필요한 루프 반복을 줄이기 위해 마스크를 기준으로 행을 정렬하고 루프 바운드를 최적화하는 기법을 분석합니다.

#Triton #GPU Optimization #Deep Learning #CUDA #Kernel Programming

2026년 5월 15일