[triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석

2026년 5월 27일수정: 2026년 5월 27일

PR 링크: triton-lang/triton#10386 상태: Merged | 변경: +13 / -10

들어가며

GPU 커널 최적화의 핵심은 '자원의 한계 내에서 얼마나 많은 작업을 병렬화(Pipelining)할 수 있는가'에 달려 있습니다. 특히 NVIDIA의 Hopper나 Blackwell 아키텍처에서 사용되는 Persistent Kernel 방식은 커널 런칭 오버헤드를 줄이고 하드웨어 활용도를 극대화하는 데 매우 효과적입니다.

하지만 최근 Triton 레포지토리에 반영된 [kernels] change heuristic of smem calculation PR에 따르면, 기존 Triton의 Shared Memory(이하 smem) 계산 로직이 다소 보수적이었음이 밝혀졌습니다. 이로 인해 충분한 메모리 공간이 있음에도 불구하고 파이프라인 스테이지(num_stages)가 제한되어 성능을 100% 끌어내지 못하고 있었습니다.

이번 글에서는 Triton이 어떻게 smem 계산 방식을 정교화하여 GB200에서 Matmul 성능을 약 13%(560 TFLOP/s -> 630 TFLOP/s) 향상시켰는지 코드 레벨에서 분석해 보겠습니다.

코드 분석: 무엇이 바뀌었는가?

1. `matmul.py`: 레이아웃 정보의 조기 확보

최적화의 핵심은 '현재 연산에 추가적인 smem 타일이 필요한가'를 판단하는 것입니다. 이를 위해 B 행렬(Weight)의 트랜스포즈 여부를 더 일찍 파악하도록 수정되었습니다.

Before:

# matmul 함수 하단부에서 뒤늦게 계산됨
b_transpose = b_is_shuffled or b.storage.data.stride()[-2] == 1

After:

# matmul 함수 상단부, opt_flags를 만들기 전에 미리 계산
a_transpose = a.stride(-1) != 1
b_transpose = b_is_shuffled or b.storage.data.stride()[-2] == 1

# ... 중략 ...

# opt_flags 생성 시 w_transpose 정보를 전달
make_opt_flags(
    # ...
    w_transpose = b_transpose,
    # ...
)

기존에는 b_transpose 여부를 커널 설정의 핵심인 opt_flags를 생성한 이후에 계산했습니다. 하지만 이제는 이를 미리 계산하여 compute_num_stages 로직에 주입함으로써, 실제 하드웨어 제약 사항을 더 정확히 시뮬레이션할 수 있게 되었습니다.

2. `opt_flags_nvidia.py`: 하드코딩된 '헤드룸' 제거와 정교한 모델링

가장 극적인 변화는 smem 가용 용량을 계산하는 휴리스틱 함수인 compute_num_stages에서 일어났습니다.

Before:

# Persistent fp32 커널에 대해 막연하게 32KB를 빼버림
if is_persistent and (lhs_dtype == FP32 or rhs_dtype == FP32):
    smem_capacity -= 32 * 1024

# ... 중략 ...

# 무조건 최대 스테이지를 3으로 캡핑(Capping)
if is_persistent and (lhs_dtype == FP32 or rhs_dtype == FP32):
    num_stages = min(num_stages, 3)

기존 로직은 FP32/TF32 연산 시 메타데이터나 TMA(Tensor Memory Accelerator) 상태를 위해 막연하게 32KB의 여유 공간을 남겨두고, 스테이지 수도 최대 3개로 강제 제한했습니다. 이는 안전하지만 비효율적인 방식이었습니다.

After:

# 막연한 32KB 차감 대신, 실제 필요한 '변환용 타일' 크기만큼만 차감
if rhs_dtype == FP32 and not w_transpose:
    # For fp32 B, a non-transposed input requires a transpose after its
    # TMA load before MMA. Persistent lowering materializes one extra
    # BLOCK_K x BLOCK_N tile for that conversion.
    smem_capacity -= int(block_k * block_n * weight_size)

# ... 중략 ...

# 하드코딩된 num_stages = 3 제한(min 함수) 제거
# 이제 smem_capacity가 허용하는 한 4개 이상의 스테이지도 가능해짐

개선된 로직은 "B 행렬이 FP32이고 트랜스포즈가 되어 있지 않은 경우"에만 주목합니다. 이 경우 TMA 로드 이후 MMA(Matrix Multiply-Accumulate) 연산 전 단계에서 레이아웃 변환을 위한 추가적인 BLOCK_K x BLOCK_N 크기의 타일 하나가 smem에 필요합니다.

따라서 막연한 32KB가 아니라, 실제 데이터 타입(weight_size)과 블록 크기에 기반한 정확한 바이트 수를 차감합니다. 만약 이미 트랜스포즈가 되어 있다면 이 차감조차 하지 않으므로, 더 많은 smem 공간을 파이프라인 스테이지 확장에 사용할 수 있게 됩니다.

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [vllm] vLLM, ROCm 환경에서 AITER MoE 연산 성능 최적화를 위한 환경 변수 노출
현재글 : [triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석
다음글 [transformers] Apple Silicon의 MPS에서 Flash Attention 최적화: 속도와 효율성 향상

[triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석

들어가며

코드 분석: 무엇이 바뀌었는가?

1. `matmul.py`: 레이아웃 정보의 조기 확보

2. `opt_flags_nvidia.py`: 하드코딩된 '헤드룸' 제거와 정교한 모델링

왜 이게 좋은 최적화인가?

1. Latency Hiding의 극대화 (3-stage vs 4-stage)

2. 하드웨어 특성에 기반한 정확한 비용 모델링

3. 조건부 최적화

결론

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글