#WMMA

3개의 포스트

[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩

LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.

#Triton #AMD #WMMA #Gluon #Optimization

2026년 3월 25일

[triton] AMD Batched WMMA Scaled에서 스케일 레이아웃 수정

AMD gfx1250 GPU의 batched WMMA scaled 연산에서 스케일 텐서의 차원 순서 처리 버그를 수정하고 batched 테스트를 추가한 PR 분석.

#Triton #AMD #WMMA #Scale #BatchedMatMul #BugFix

2026년 2월 23일

[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원

warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.

#Triton #AMD #WMMA #LinearLayout #GPU Layout #gfx1250

2025년 12월 29일