[Triton] WGMMA rs-dot 분할을 2회로 제한 — 1% MoE 성능 향상K 차원 분할 수를 K/instrK에서 2로 고정하여 in-register pipelining 최적화#Triton#NVIDIA#Performance#WGMMA#Pipelining2026년 1월 7일댓글 수 로딩 중
[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.#Triton#NVIDIA#WGMMA#Pipeline#Optimization2025년 12월 17일댓글 수 로딩 중
[Triton] WGMMA wait op의 출력 constraint 타입별 분기 수정f16 등 16비트 타입에서 잘못된 =r constraint 대신 =h를 사용하여 불필요한 cvt 제거#Triton#NVIDIA#Bug Fix#Inline Assembly#WGMMA2025년 10월 29일댓글 수 로딩 중
[Triton] swizzling=0 matrix descriptor 지원과 WGMMA lowering 일반화swizzling이 0인 경우의 matrix descriptor 생성과 SharedLinearEncoding 기반의 WGMMA lowering을 구현#Triton#NVIDIA#WGMMA#Hopper#SharedLayout2025년 10월 6일댓글 수 로딩 중