#WGMMA

4개의 포스트

[Triton] WGMMA rs-dot 분할을 2회로 제한 — 1% MoE 성능 향상

K 차원 분할 수를 K/instrK에서 2로 고정하여 in-register pipelining 최적화

#Triton #NVIDIA #Performance #WGMMA #Pipelining

2026년 1월 7일

[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성

파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.

#Triton #NVIDIA #WGMMA #Pipeline #Optimization

2025년 12월 17일

[Triton] WGMMA wait op의 출력 constraint 타입별 분기 수정

f16 등 16비트 타입에서 잘못된 =r constraint 대신 =h를 사용하여 불필요한 cvt 제거

#Triton #NVIDIA #Bug Fix #Inline Assembly #WGMMA

2025년 10월 29일

[Triton] swizzling=0 matrix descriptor 지원과 WGMMA lowering 일반화

swizzling이 0인 경우의 matrix descriptor 생성과 SharedLinearEncoding 기반의 WGMMA lowering을 구현

#Triton #NVIDIA #WGMMA #Hopper #SharedLayout

2025년 10월 6일