[triton] AMD ConvertWarpPipeline에서 AsyncWaitOp 인식 및 Barrier 정렬 수정

2026년 2월 27일수정: 2026년 2월 27일

PR 링크: triton-lang/triton#9593 상태: Merged | 변경: +83 / -2

들어가며

AMD의 warp pipeline은 루프 본문의 연산을 여러 스테이지로 나누어 파이프라인 병렬 처리합니다. ConvertPipelinedForPattern은 스테이지 사이의 barrier를 인식하여 동기화 포인트를 삽입하는데, amdg.async_wait 연산이 누락되어 있었습니다.

핵심 코드 분석

Before

} else if (isa<ROCDL::BarrierOp, gpu::BarrierOp, triton::gpu::AsyncWaitOp,
               triton::amdgpu::AsyncTDMWait,
               triton::amdgpu::AsyncTDMIntrinsicWait>(op)) {
  // amdgpu::AsyncWaitOp 미인식
  existingBarrierMap[currCluster] = &op;
  bars.push_back(false);  // 잘못된 bars 추가로 cluster/bar 어긋남

After

} else if (isa<ROCDL::BarrierOp, gpu::BarrierOp, triton::gpu::AsyncWaitOp,
               triton::amdgpu::AsyncWaitOp,  // 추가
               triton::amdgpu::AsyncTDMWait,
               triton::amdgpu::AsyncTDMIntrinsicWait>(op)) {
  existingBarrierMap[currCluster] = &op;
  // bars.push_back(false) 제거

테스트

tt.func @async_wait_between_stages(%n: index, %ptr: !tt.ptr<f32>) {
  scf.for %i = %c0 to %n step %c1 {
    scf.execute_region { ... } {triton.warp_pipeline.stage = "stage1"}
    amdg.async_wait {num_inst = 0 : i32}  // 이제 barrier로 인식
    scf.execute_region { ... } {triton.warp_pipeline.stage = "stage2"}
  } {triton.warp_pipeline.pipelined_for}
}