[Triton] 2CTA Block Scale MMA with tcgen05.cp — 두 CTA 협력 행렬 곱셈두 CTA가 협력하는 Block Scale MMA의 전체 경로(TMA→cp→MMA→commit)를 tcgen05.cp 명령으로 구현한다#Triton#NVIDIA#Blackwell#2CTA#MMA#tcgen052026년 2월 23일댓글 수 로딩 중
[triton] Gluon에 mma_scaled 연산 헬퍼 및 실행 테스트 추가Triton Gluon 프론트엔드에 Blackwell tcgen05_mma_scaled 연산을 지원하는 헬퍼 함수와 실행 테스트를 추가한 PR 분석.#Triton#Gluon#Blackwell#MMA#Scaled#TensorCore2025년 10월 9일댓글 수 로딩 중