[triton] Reduce 커널에 Unpadded Batch Size 핸들링 추가

2026년 1월 30일수정: 2026년 1월 30일

PR 링크: triton-lang/triton#9332 상태: Merged | 변경: +32 / -6

들어가며

MoE(Mixture of Experts) 워크로드에서 expert별 토큰 수가 다를 때, 배치를 최대 크기로 패딩하면 실제 데이터가 없는 행에 대해서도 reduce 연산을 수행하는 낭비가 발생합니다. 이 PR은 unpadded_batch_size 파라미터를 추가하여 실제 배치 크기만큼만 연산하도록 합니다.

핵심 코드 분석

Before

valid_s0 = offs_s0 < S0  # S0은 패딩된 전체 배치 크기

After

if UnpaddedBatchSize is not None:
    unpadded = tl.load(UnpaddedBatchSize).to(tl.int32)
    if pid_s0 * BLOCK_S0 >= unpadded:
        return  # 패딩 영역은 전체 프로그램 ID 단위로 스킵
    valid_s0 = offs_s0 < unpadded
else:
    valid_s0 = offs_s0 < S0

Python API

def reduce(x, dim, mask=None, scale=None, ...,
           unpadded_batch_size: Optional[torch.Tensor] = None):
    """Optional single-element tensor specifying the number of entries
    to reduce along the first dimension."""