[Triton] Blackwell barrierSlice 타이핑 버그 수정

2025년 10월 9일수정: 2025년 10월 9일

PR 링크: triton-lang/triton#8414 상태: Merged | 변경: +8 / -6

들어가며

NVIDIA Blackwell 아키텍처의 파이프라인 lowering에서 barrierSlice는 MMA 연산의 완료 동기화에 사용된다. numStages가 1일 때, barrier index가 불필요한데도 createSingleBufferView가 호출되면서 타입 불일치가 발생하는 버그가 있었다.

핵심 코드 분석

Before

Value barrierIdx = forOp.getRegionIterArg(barrierIdxArgIdx);
// ...
Value barrierSlice = barrierAlloc;
if (numStages > 1) {
    barrierSlice =
        triton::createSingleBufferView(builder, barrierAlloc, barrierIdx);
}

numStages == 1이면 barrierSlice = barrierAlloc 그대로 사용했지만, 이 값의 타입이 이후 연산과 맞지 않았다.

After

Value zero = builder.create<arith::ConstantIntOp>(forOp.getLoc(), 0, 32);
Value barrierIdx;
if (numStages > 1) {
    barrierIdx = forOp.getRegionIterArg(barrierIdxArgIdx);
} else {
    barrierIdx = zero;
}
// ...
Value barrierSlice =
    triton::createSingleBufferView(builder, barrierAlloc, barrierIdx);

numStages에 관계없이 항상 createSingleBufferView를 호출하되, numStages == 1이면 index를 0으로 고정한다.