[triton] AutoWS에서 TMA와 non-TMA 로드 혼합 시 self-latency 및 MMA 처리 수정

2026년 1월 7일수정: 2026년 1월 7일

PR 링크: triton-lang/triton#9111 상태: Merged | 변경: +252 / -196

들어가며

Triton의 Auto Warp Specialization(AutoWS)은 로드와 MMA를 서로 다른 warp 그룹에 배치하여 메모리 접근과 연산을 오버랩합니다. 그러나 TMA(Tensor Memory Accelerator)와 non-TMA 로드가 혼합된 경우, MMA의 self-latency 결정과 lowerMMA 처리에 문제가 있었습니다.

핵심 코드 분석

AssignLatencies에서 self-latency 결정:

auto cantWarpSpec = [](Operation *op) { return isa<LoadOp>(op); };
auto warpSpecHelper = ttng::MMAv5PipelineableOperandsHelper(
    mma, forOp, [&](Operation *op) {
      return isLoadToBePipelined(op) && !cantWarpSpec(op);
    });
if (warpSpecHelper.isPipelineable ||
    (warpSpecHelper.isOperandsStateDetermined &&
     llvm::none_of(warpSpecHelper.unpipelineableOperandDefs, cantWarpSpec)))
  mmaSelfLatency[mma] = 0;

모든 MMA 피연산자가 warp specialized될 수 있으면 self-latency를 0으로 설정합니다. 일반 LoadOp은 warp specialize할 수 없으므로, non-TMA 로드가 있으면 self-latency를 유지합니다. lowerMMA도 warp-specialized MMA를 처리하도록 확장되었습니다.