[Triton] swizzling=0 matrix descriptor 지원과 WGMMA lowering 일반화

2025년 10월 6일수정: 2025년 10월 6일

PR 링크: triton-lang/triton#8378 상태: Merged | 변경: +81 / -72

들어가며

NVIDIA Hopper GPU의 WGMMA(Warp Group Matrix Multiply-Accumulate) 명령어는 shared memory의 matrix descriptor를 통해 operand를 참조한다. 기존에는 swizzling 값이 0인 경우를 제대로 지원하지 않았고, WGMMA의 operand 검증에서 SharedLinearEncodingAttr을 허용하지 않았다.

핵심 코드 분석

WGMMA 검증 확장 (Ops.cpp)

Before:

if (!isa<NVMMASharedEncodingAttr>(getB().getType().getEncoding()))
    return emitOpError("WGMMA B operand must have NVMMA shared layout");

After:

if (!isa<NVMMASharedEncodingAttr, SharedLinearEncodingAttr>(
        getB().getType().getEncoding()))
    return emitOpError("WGMMA B operand must have NVMMA shared layout");

SharedLinearEncodingAttr도 유효한 WGMMA operand 인코딩으로 인정한다.

MNdim 파라미터 변경 (MMAHelpers.h)

Before:

static DotOpMmaSmemLoader build(
    ..., int mmaVersion, bool isFp4 = false,
    std::optional<RankedTensorType> mmaTy = std::nullopt,
    std::optional<unsigned> MNdim = std::nullopt);

After:

static DotOpMmaSmemLoader build(
    ..., unsigned MNdim, int mmaVersion, bool isFp4 = false,
    std::optional<RankedTensorType> mmaTy = std::nullopt);

MNdim을 optional에서 필수 파라미터로 변경하여 타입 안전성을 높였다.