#MXFP

7개의 포스트

[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트

AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.

#Triton #AMD #gfx1250 #FlashAttention #MXFP #Gluon

2026년 2월 20일

[Triton] Blackwell 2D activation-scale layout에서 ragged metadata 없이 동작하도록 수정

2D 입력 + ragged_metadata=None 조합에서 batched 모드로 fallback하여 레이아웃 구성 실패 방지

#Triton #NVIDIA #Blackwell #MXFP #Bug Fix

2026년 2월 11일

[Triton] Frontend에서 scaled batched matrix multiply 지원

dot_scaled의 shape 검증을 마지막 2차원 기준으로 변경하여 BMM 연산을 올바르게 처리

#Triton #Frontend #BMM #MXFP #Bug Fix

2025년 12월 18일

[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지

bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다

#Triton #MXFP #Shared Memory #Matrix Multiplication #Performance Tuning

2025년 12월 9일

[Triton] MXFP 포맷 출력 matmul 버그 2건 수정

MXFP downcast epilogue에서 scale 마스크 계산과 shared memory overflow 문제를 수정

#Triton #MXFP #Matmul #Bug Fix

2025년 12월 1일

[triton] AMD GPU에서 Block Scaled Matmul 지원 추가

Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.

#Triton #AMD #CDNA4 #MatMul #MXFP #GPU

2025년 11월 19일

[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용

Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.

#Triton #MXFP #GPU #Optimization #HPC

2025년 11월 6일