[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.#Triton#AMD#GPU#AsyncCopy#GFX12502026년 3월 18일댓글 수 로딩 중
[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#Atomics2026년 3월 16일댓글 수 로딩 중
[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.#Triton#AMD#GPU#FlashAttention#GFX1250#Refactoring2026년 3월 12일댓글 수 로딩 중
[triton] AMD TargetInfo에 16/32비트 Elementwise 벡터화 지원 추가AMD GPU의 TargetInfo에 supportBitwidth16Elementwise와 supportBitwidth32Elementwise를 활성화하여 reduction 코드 생성을 최적화한 PR을 분석합니다.#Triton#AMD#Vectorization#Reduction#GFX12502026년 2월 19일댓글 수 로딩 중
[triton] AMD GFX1250에서 TDM Software Pipelining 지원AMD GFX1250 타겟에서 Tensor Descriptor Memory(TDM) 기반 비동기 복사를 software pipelining에 통합하여 matmul 성능을 향상시킨 PR을 분석합니다.#Triton#AMD GPU#GFX1250#TDM#Software Pipelining2026년 2월 17일댓글 수 로딩 중
[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#GEMM#WarpPipeline2026년 2월 5일댓글 수 로딩 중
[triton] AMD GFX1250을 위한 Triton Stream-K 커널 최적화: 4/8 Warp 구현AMD GFX1250 아키텍처에서 Stream-K 커널의 성능을 극대화하기 위한 4/8 warp 병렬 처리 및 atomic lock 최적화 기법 분석.#Triton#AMD#GFX1250#Stream-K#GPU-Optimization2026년 2월 4일댓글 수 로딩 중