[triton] Triton Gluon을 활용한 고성능 2CTA 블록 스케일 행렬 곱셈 최적화Triton Gluon의 2CTA 워프 전문화 기법을 통해 행렬 곱셈의 연산 강도를 높이고 SMEM 사용량을 최적화하는 방법#Triton#GPU#CUDA#MatMul#HighPerformanceComputing2026년 3월 13일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.#Triton#Blackwell#GPU#MatMul#HPC2026년 2월 24일댓글 수 로딩 중
[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.#Triton#GPU#Optimization#MXFP8#MatMul2025년 12월 8일댓글 수 로딩 중
[triton] AMD GPU에서 Block Scaled Matmul 지원 추가Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.#Triton#AMD#CDNA4#MatMul#MXFP#GPU2025년 11월 19일댓글 수 로딩 중
[triton] Matmul에서 Split-K Reduction과 Inter-Expert Reduction 분리Triton Kernels의 matmul_ogs에서 split-k reduction을 inter-expert reduction과 분리하여 MoE 파이프라인의 유연성을 높인 PR 분석.#Triton#MatMul#SplitK#MoE#Reduction#Refactoring2025년 10월 29일댓글 수 로딩 중