[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.#Triton#GPU#Optimization#HPC#Matmul2026년 1월 22일댓글 수 로딩 중
[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.#Triton#GPU#CUDA#Optimization#Matmul2026년 1월 20일댓글 수 로딩 중
[Triton] MXFP 포맷 출력 matmul 버그 2건 수정MXFP downcast epilogue에서 scale 마스크 계산과 shared memory overflow 문제를 수정#Triton#MXFP#Matmul#Bug Fix2025년 12월 1일댓글 수 로딩 중