[SGLang] Deep GEMM Wrapper: 최적화 행렬 곱 라이브러리SGLang의 Deep GEMM Wrapper를 분석한다. GEMM 연산을 최적화하는 래퍼 설계, 하드웨어별 커널 선택, FP8/INT8 GEMM 지원을 코드와 함께 살펴본다.#sglang#Deep GEMM#Matrix Multiplication#GEMM Optimization2026년 4월 14일댓글 수 로딩 중
[triton] Triton 2CTA Block-Scaled Matmul — cuBLAS 대비 성능 비교Triton Gluon으로 구현한 2CTA warp-specialized block-scaled matmul이 mxfp8/mxfp4/nvfp4를 지원한다#Triton#CUDA#Matrix Multiplication#FP8#Blackwell2026년 3월 13일댓글 수 로딩 중
[논문리뷰] A 58-Addition, Rank-23 Scheme for General 3x3 Matrix Multiplication본 논문의 핵심 목표는 일반적인 비가환 링(non-commutative rings) 환경에서 3x3 행렬 곱셈 을 위한 랭크-23(rank-23) 알고리즘 의 가산 복잡도(additive complexity)를 최적화하는 것입니다.#Review#Matrix Multiplication#Additive Complexity#Algorithm Optimization#Ternary Flip-Graph#Heuristic Search#Common Subexpression Elimination#BLAS2025년 12월 28일댓글 수 로딩 중
[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다#Triton#MXFP#Shared Memory#Matrix Multiplication#Performance Tuning2025년 12월 9일댓글 수 로딩 중
[논문리뷰] CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning본 연구의 핵심 목표는 반정밀 일반 행렬 곱셈(HGEMM) CUDA 커널 의 수동 최적화가 어려운 문제를 해결하고, cuBLAS 와 같은 기존의 고도로 최적화된 라이브러리보다 뛰어난 성능을 달성하는 자동화된 최적화 시스템인 CUDA-L2 를 개발하는 것입니다.#Review#CUDA#Matrix Multiplication#Reinforcement Learning#LLMs#Kernel Optimization#HGEMM#GPU Performance#cuBLAS2025년 12월 2일댓글 수 로딩 중