[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중