[Triton] Hopper에서 소규모 배치 크기 벤치마크 수정

2025년 12월 4일수정: 2025년 12월 4일

PR 링크: triton-lang/triton#8877 상태: Merged | 변경: +14 / -4

들어가며

Triton의 MLP 벤치마크에서 Hopper GPU에 대한 num_warps 설정이 소규모 배치에서 잘못 적용되는 문제가 있었다. 이 PR은 Hopper에서 weight이 scaled인 경우에만 8 warps를 사용하도록 조건을 수정하고, small batch 테스트 케이스를 추가한다.

핵심 코드 분석

Before: batch 크기만으로 num_warps 결정

num_warps = 4 if batch <= 512 else 8

After: GPU 아키텍처도 고려

# on hopper we only use 8 warps when weight is scaled
num_warps = 4 if batch <= 512 and cuda_capability_geq(10, 0) else 8

테스트 케이스 추가

# Before: large batch만 테스트
[(1024, 1024, 1024, 1, 1, "bf16", "bf16", 1, 1), ...]

# After: small batch도 추가
[
    (128, 1024, 1024, 1, 1, "bf16", "bf16", 1, 1),
    (128, 1024, 1024, 1, 1, "fp8", "fp8", 1, 1),
    (1024, 1024, 1024, 1, 1, "bf16", "bf16", 1, 1),
    (1024, 1024, 1024, 1, 1, "fp8", "fp8", 1, 1),
]