[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법

2025년 10월 3일수정: 2025년 10월 3일

PR 링크: triton-lang/triton#8366 상태: Merged | 변경: +46 / -0

들어가며

최근 Triton 컴파일러의 release/3.5.x 브랜치에 흥미로운 최적화 패치가 병합되었습니다. 이 패치는 특히 'Flex Attention' 연산에서 발생하는 성능 저하 문제를 해결하기 위한 것으로, 핵심은 TMEMStoreOp으로 이어지는 불필요한 레이아웃 변환(ConvertLayoutOp)을 컴파일 타임에 제거(Folding)하는 것입니다. 본 글에서는 이 최적화가 어떻게 구현되었는지 코드 레벨에서 분석합니다.

코드 분석

이번 변경의 핵심은 lib/Dialect/TritonGPU/IR/Ops.cpp 파일 내에 새로운 Canonicalization 패턴을 추가한 것입니다. 컴파일러가 IR을 최적화할 때, 특정 패턴을 발견하면 이를 더 효율적인 형태로 치환하는 방식입니다.

1. CanonicalizeConvertFromTMEMStore 구현

기존에는 TMEMStoreOp 이전에 ConvertLayoutOp이 존재하면, 이를 그대로 유지하여 불필요한 데이터 이동이나 레이아웃 재배치가 발생했습니다. 이를 해결하기 위해 아래와 같은 패턴을 도입했습니다.

// Before: tmem_store(cvt(src)) -> After: tmem_store(src)
struct CanonicalizeConvertFromTMEMStore
    : public mlir::OpRewritePattern<nvidia_gpu::TMEMStoreOp> {
  mlir::LogicalResult
  matchAndRewrite(nvidia_gpu::TMEMStoreOp op, PatternRewriter &rewriter) const override {
    auto convert = op.getSrc().getDefiningOp<ConvertLayoutOp>();
    if (!convert) return failure();

    // 레이아웃 호환성 검사
    if (!nvidia_gpu::isDistributedLayoutTMemCompatible(op.getOperation(), cvtSrcType, op.getDst().getType())) {
      return failure();
    }

    rewriter.modifyOpInPlace(op, [&]() { op.getSrcMutable().assign(convert.getSrc()); });
    return mlir::success();
  }
};

이 코드는 TMEMStoreOp의 입력이 ConvertLayoutOp인 경우, 해당 레이아웃 변환이 TMEM과 호환되는지 확인한 뒤, 변환 과정을 건너뛰고 원본 소스(convert.getSrc())를 직접 TMEMStoreOp에 연결합니다.

2. 패턴 등록

작성된 패턴은 ConvertLayoutOp::getCanonicalizationPatterns에 등록되어 컴파일러의 최적화 패스 과정에서 자동으로 호출됩니다.

void ConvertLayoutOp::getCanonicalizationPatterns(RewritePatternSet &patterns, ...) {
  // ... 기존 패턴들
  patterns.add<CanonicalizeConvertFromTMEMStore>(context);
}

왜 이게 좋은가

이번 최적화는 '불필요한 연산 제거'라는 컴파일러 최적화의 정석을 따릅니다.

데이터 이동 최소화: GPU 메모리 계층 구조에서 레이아웃 변환은 종종 레지스터 간의 복잡한 셔플(Shuffle) 연산을 동반합니다. 이를 제거함으로써 연산 오버헤드를 줄였습니다.
Flex Attention 성능 개선: Flex Attention과 같은 복잡한 커널에서는 레이아웃 변환이 빈번하게 발생하는데, 이 최적화를 통해 불필요한 병목을 제거하여 전체적인 처리량(Throughput)을 높였습니다.
일반적 교훈: 컴파일러 최적화에서 '패턴 매칭을 통한 폴딩'은 연산 그래프를 단순화하는 가장 강력한 도구입니다. 특히 하드웨어 특화 메모리(TMEM)를 다룰 때, 레이아웃 호환성을 미리 검증하고 중간 단계를 생략하는 전략은 필수적입니다.

결론

이번 PR은 아주 작은 코드 변경이지만, 대규모 언어 모델의 핵심인 Attention 연산의 성능을 직접적으로 개선하는 중요한 사례입니다. Triton과 같은 도메인 특화 컴파일러(DSL Compiler)를 다룰 때, IR 단계에서의 Canonicalization이 얼마나 중요한지 다시 한번 확인할 수 있습니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [Open WebUI] 파일 쿼리 시 필요한 컬럼만 조회하여 성능 개선
현재글 : [triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법
다음글 [Open WebUI] Knowledge 페이지 로딩 속도 개선: 중복 API 호출 제거