#GFX1250

7개의 포스트

[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹

브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.

#Triton #AMD #GPU #AsyncCopy #GFX1250

2026년 3월 18일

[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화

GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #Atomics

2026년 3월 16일

[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링

preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.

#Triton #AMD #GPU #FlashAttention #GFX1250 #Refactoring

2026년 3월 12일

[triton] AMD TargetInfo에 16/32비트 Elementwise 벡터화 지원 추가

AMD GPU의 TargetInfo에 supportBitwidth16Elementwise와 supportBitwidth32Elementwise를 활성화하여 reduction 코드 생성을 최적화한 PR을 분석합니다.

#Triton #AMD #Vectorization #Reduction #GFX1250

2026년 2월 19일

[triton] AMD GFX1250에서 TDM Software Pipelining 지원

AMD GFX1250 타겟에서 Tensor Descriptor Memory(TDM) 기반 비동기 복사를 software pipelining에 통합하여 matmul 성능을 향상시킨 PR을 분석합니다.

#Triton #AMD GPU #GFX1250 #TDM #Software Pipelining

2026년 2월 17일

[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가

AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #GEMM #WarpPipeline

2026년 2월 5일

[triton] AMD GFX1250을 위한 Triton Stream-K 커널 최적화: 4/8 Warp 구현

AMD GFX1250 아키텍처에서 Stream-K 커널의 성능을 극대화하기 위한 4/8 warp 병렬 처리 및 atomic lock 최적화 기법 분석.

#Triton #AMD #GFX1250 #Stream-K #GPU-Optimization

2026년 2월 4일