[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.#Triton#AMD#gfx1250#FlashAttention#MXFP#Gluon2026년 2월 20일댓글 수 로딩 중
[Triton] Blackwell 2D activation-scale layout에서 ragged metadata 없이 동작하도록 수정2D 입력 + ragged_metadata=None 조합에서 batched 모드로 fallback하여 레이아웃 구성 실패 방지#Triton#NVIDIA#Blackwell#MXFP#Bug Fix2026년 2월 11일댓글 수 로딩 중
[Triton] Frontend에서 scaled batched matrix multiply 지원dot_scaled의 shape 검증을 마지막 2차원 기준으로 변경하여 BMM 연산을 올바르게 처리#Triton#Frontend#BMM#MXFP#Bug Fix2025년 12월 18일댓글 수 로딩 중
[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다#Triton#MXFP#Shared Memory#Matrix Multiplication#Performance Tuning2025년 12월 9일댓글 수 로딩 중
[Triton] MXFP 포맷 출력 matmul 버그 2건 수정MXFP downcast epilogue에서 scale 마스크 계산과 shared memory overflow 문제를 수정#Triton#MXFP#Matmul#Bug Fix2025년 12월 1일댓글 수 로딩 중
[triton] AMD GPU에서 Block Scaled Matmul 지원 추가Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.#Triton#AMD#CDNA4#MatMul#MXFP#GPU2025년 11월 19일댓글 수 로딩 중
[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.#Triton#MXFP#GPU#Optimization#HPC2025년 11월 6일댓글 수 로딩 중