[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보#Triton#AMD#gfx1250#GEMM#Tensor Descriptor#Testing2026년 3월 31일댓글 수 로딩 중
[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결#SGLang#AMD#ROCm#MoE#GEMM2026년 3월 31일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.#Triton#AMD#GPU#Optimization#GEMM2026년 3월 25일댓글 수 로딩 중
[sglang] SGLang의 SM120 FP8 Blockwise GEMM 성능 최적화: Pingpong 스케줄 도입SM120 아키텍처에서 FP8 Blockwise GEMM 연산 시 Pingpong 스케줄을 도입하여 소형 M 사이즈에서 성능을 약 2배 향상시켰습니다.#CUDA#CUTLASS#GEMM#FP8#SGLang#SM1202026년 3월 22일댓글 수 로딩 중
[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#GEMM#WarpPipeline2026년 2월 5일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 19일댓글 수 로딩 중
[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 18일댓글 수 로딩 중