[triton] AMD GFX9 AsyncCopy를 위한 Padded Layout 선택 확장AMD CDNA4(GFX9) GPU에서 async copy의 padded layout 선택을 8비트 데이터 타입과 더 넓은 kWidth로 확장하여 bank conflict를 줄인 PR 분석.#Triton#AMD#CDNA4#AsyncCopy#PaddedLayout#BankConflict2026년 3월 9일댓글 수 로딩 중
[triton] AMD GPU에서 Block Scaled Matmul 지원 추가Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.#Triton#AMD#CDNA4#MatMul#MXFP#GPU2025년 11월 19일댓글 수 로딩 중