[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법#Triton#GPU#CUDA#MatMul#HighPerformanceComputing2026년 3월 13일댓글 수 로딩 중