[Triton] gfx1250에서 TDM Store 지원 추가

2025년 10월 9일수정: 2025년 10월 9일

PR 링크: triton-lang/triton#8392 상태: Merged | 변경: +611 / -224

들어가며

AMD gfx1250 아키텍처의 TDM(Tensor Data Mover)은 텐서 디스크립터를 사용하여 global memory와 shared memory 간 비동기 데이터 전송을 수행한다. 기존에는 global-to-shared load만 지원했는데, 이 PR은 shared-to-global store도 추가한다.

핵심 코드 분석

Gluon API 추가 (tdm.py)

After:

@builtin
def async_store(dest: tensor_descriptor, offsets: List[...], src: shared_memory_descriptor,
                _semantic=None) -> None:
    offset_handles = _semantic._convert_to_ir_values(offsets, require_i64=False)
    _semantic.builder.create_async_tdm_copy_local_to_global(
        dest.handle, offset_handles, src.handle)

SwizzledSharedLayout 지원

layout = _unwrap_if_constexpr(layout)
assert isinstance(layout, (PaddedSharedLayout, SwizzledSharedLayout)), \
    "Expected layout to be a PaddedSharedLayout or SwizzledSharedLayout"

TDM store는 PaddedSharedLayout뿐 아니라 SwizzledSharedLayout에서도 동작하도록 확장되었다.

MLIR 연산 등록 (gluon_ir.cc)

.def("create_async_tdm_copy_local_to_global",
     [](GluonOpBuilder &self, Value descPtr, std::vector<Value> &indices,
        Value src) {
       self.create<ttag::AsyncTDMCopyLocalToGlobalOp>(
           descPtr, indices, src);
     })