[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원

2025년 10월 7일수정: 2025년 10월 7일

PR 링크: triton-lang/triton#8365 상태: Merged | 변경: +300 / -40

들어가며

AMD CDNA GPU에서 matmul 성능을 높이려면 shared memory의 bank conflict를 줄여야 한다. Padded layout은 행 사이에 padding을 넣어 bank conflict를 방지하는 기법이다. 기존에는 padded layout을 사용하면 AsyncCopy(direct-to-LDS load)를 사용할 수 없었는데, 이 PR은 둘을 함께 사용할 수 있도록 파이프라인 lowering을 확장한다.

핵심 코드 분석

Shared encoding 결정 로직 확장

Before:

tempAttr = ttg::SwizzledSharedEncodingAttr::get(
    loadedValue.getContext(), dotOpEnc, srcTy.getShape(),
    sharedOrder, ctaLayout, bitWidth, /*needTrans=*/false);

항상 SwizzledSharedEncoding만 사용했다.

After:

bool canUseAsyncCopy = false;
if (useAsyncCopy && isa<tt::LoadOp>(loadOp)) {
    canUseAsyncCopy = canBeConvertedToAsyncLoad(
        2, cast<tt::LoadOp>(loadOp), {}, axisInfoAnalysis, targetInfo);
}
tempAttr = composePaddedLayout(targetInfo, dotOpEnc, srcTy,
                               sharedOrder, canUseAsyncCopy);
if (!tempAttr) {
    tempAttr = ttg::SwizzledSharedEncodingAttr::get(...);
}

AsyncCopy가 가능한지 먼저 확인하고, 가능하면 padded layout을 시도한다. padded layout이 적합하지 않으면 swizzled로 fallback한다.

AsyncCopy 호환성 검사

bool canBeConvertedToAsyncLoad(unsigned numBuffers, tt::LoadOp loadOp,
                               ttg::SharedEncodingTrait sharedEnc, ...) {
    if (paddedEnc) {
        sharedLayout = paddedEnc.getLinearComponent();
    } else {
        sharedLayout = triton::gpu::toLinearLayout(srcShape, sharedEnc);
    }
    auto regToSharedLayout = regLayout.invertAndCompose(sharedLayout);
    // vec size가 타겟이 지원하는 범위인지 확인
}