[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중
[triton] Proton 커널 내 프로파일러 Global Memory 지원Triton Proton의 intra-kernel profiler에 global memory buffer 지원을 추가하여, shared memory가 부족한 환경에서도 프로파일링이 가능하도록 한 PR을 분석합니다.#Triton#Proton#Profiler#Global Memory#GPU Performance2025년 11월 5일댓글 수 로딩 중