[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.#Triton#AMD#WMMA#Gluon#Optimization2026년 3월 25일댓글 수 로딩 중
[triton] AMD Batched WMMA Scaled에서 스케일 레이아웃 수정AMD gfx1250 GPU의 batched WMMA scaled 연산에서 스케일 텐서의 차원 순서 처리 버그를 수정하고 batched 테스트를 추가한 PR 분석.#Triton#AMD#WMMA#Scale#BatchedMatMul#BugFix2026년 2월 23일댓글 수 로딩 중
[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.#Triton#AMD#WMMA#LinearLayout#GPU Layout#gfx12502025년 12월 29일댓글 수 로딩 중