[triton] Triton에서 cuBLAS를 활용한 mxfp8 및 nvfp4 블록 스케일 행렬 곱셈 벤치마킹Triton의 블록 스케일 행렬 곱셈 성능을 검증하기 위해 cuBLAS 기반의 베이스라인을 도입하고 튜토리얼을 개선했습니다.#Triton#cuBLAS#mxfp8#nvfp4#Performance2025년 12월 19일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement LearningarXiv에 게시된 'CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중