#Matrix Multiplication

5개의 포스트

[SGLang] Deep GEMM Wrapper: 최적화 행렬 곱 라이브러리

SGLang의 Deep GEMM Wrapper를 분석한다. GEMM 연산을 최적화하는 래퍼 설계, 하드웨어별 커널 선택, FP8/INT8 GEMM 지원을 코드와 함께 살펴본다.

#sglang #Deep GEMM #Matrix Multiplication #GEMM Optimization

2026년 4월 14일

[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교

Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다

#Triton #CUDA #Matrix Multiplication #FP8 #Blackwell

2026년 3월 13일

[논문리뷰] A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication

A. I. Perminov이 arXiv에 게시한 'A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication' 논문에 대한 자세한 리뷰입니다.

#Review #Matrix Multiplication #Additive Complexity #Algorithm Optimization #Ternary Flip-Graph #Heuristic Search #Common Subexpression Elimination #BLAS

2025년 12월 28일

[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지

bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다

#Triton #MXFP #Shared Memory #Matrix Multiplication #Performance Tuning

2025년 12월 9일

[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning

arXiv에 게시된 'CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #CUDA #Matrix Multiplication #Reinforcement Learning #LLMs #Kernel Optimization #HGEMM #GPU Performance #cuBLAS

2025년 12월 2일