[Triton] MXFP 포맷 출력 matmul 버그 2건 수정

2025년 12월 1일수정: 2025년 12월 1일

PR 링크: triton-lang/triton#8865 상태: Merged | 변경: +9 / -2

들어가며

Triton의 고성능 matmul 커널은 MXFP(Microscaling Floating Point) 포맷으로 결과를 직접 출력하는 epilogue를 지원한다. 이 PR은 MXFP downcast epilogue에서 발생하는 두 가지 버그를 수정한다: (1) scale 마스크 계산에서 잘못된 전역 차원 N 사용, (2) block_m=64에서 shared memory overflow.

핵심 코드 분석

Bug 1: Scale mask 계산 오류

Before:

N_MX_BLOCK = tl.cdiv(N, MXFP_BLOCK_SIZE)
# ...
mask_n_scale = offs_y_n_scale < N_MX_BLOCK

전역 차원 N으로 scale 블록 수를 계산했다. 하지만 epilogue에서 사용하는 차원은 로컬 yN이다.

After:

mask_n_scale = offs_y_n_scale < tl.cdiv(yN, MXFP_BLOCK_SIZE)

로컬 차원 yN을 사용하여 정확한 마스크를 생성한다.

Bug 2: Shared memory overflow

After (opt_flags.py):

if block_m == 64 and precision_config.c_mx_scale is not None \
    and rhs_dtype == FP4 and torch.cuda.get_device_capability()[0] >= 10:
    block_m = 128