[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보#Triton#AMD#gfx1250#GEMM#Tensor Descriptor#Testing2026년 3월 31일댓글 수 로딩 중
[triton] AMD gfx1250에서 Async Copy와 TDM 경로의 Padded Layout 휴리스틱 통합AMD gfx1250 GPU의 async copy와 TDM 로드 경로에서 사용되는 padded shared memory layout 선택 휴리스틱을 통합한 PR 분석.#Triton#AMD#gfx1250#SharedMemory#Padding#BankConflict2026년 3월 17일댓글 수 로딩 중
[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.#Triton#AMD#gfx1250#FlashAttention#MXFP#Gluon2026년 2월 20일댓글 수 로딩 중
[triton] AMD gfx1250 Gluon에 Tensor Async Gather(TDM) 지원 추가AMD gfx1250 GPU의 TDM gather 모드를 활용하여 비연속 global memory 행에서 비동기적으로 데이터를 읽는 기능을 Gluon에 추가한 PR 분석.#Triton#AMD#gfx1250#Gluon#TDM#Gather2026년 2월 1일댓글 수 로딩 중
[triton] AMD gfx1250 Gluon에 Tensor Async Scatter 지원 추가AMD gfx1250 GPU의 TDM scatter 모드를 활용하여 비연속 global memory 행에 비동기적으로 데이터를 쓰는 기능을 Gluon에 추가한 PR 분석.#Triton#AMD#gfx1250#Gluon#TDM#Scatter2026년 1월 26일댓글 수 로딩 중
[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.#Triton#AMD#WMMA#LinearLayout#GPU Layout#gfx12502025년 12월 29일댓글 수 로딩 중
[Triton] gfx1250에 async_copy_local_to_global 추가Gluon에서 GFX1250의 shared-to-global 비동기 복사를 지원하는 Op 정의, lowering, 테스트 추가#Triton#AMD#gfx1250#Gluon#Async Copy2025년 12월 16일댓글 수 로딩 중
[Triton] AMD gfx1250 tt.LoadOp에 multicast 지원 추가cluster_load를 사용하여 여러 CTA에 동시 레지스터 로드를 수행하는 multicast 기능 구현#Triton#AMD#gfx1250#Multicast#Load2025년 11월 18일댓글 수 로딩 중
[Triton] gfx1250에서 async_copy multicast 지원AMD gfx1250 타겟의 async_copy_global_to_local에 cluster load 기반 multicast를 추가하여 CTA간 데이터 공유 지원#Triton#AMD#Multicast#Async Copy#gfx12502025년 11월 16일댓글 수 로딩 중
[Triton] AMD gfx1250에 LDS 메모리 배리어 지원 추가gfx1250 아키텍처의 LDS memory barrier op을 구현하고 Gluon DSL에 노출한다#Triton#AMD#LDS#Memory Barrier#gfx1250#Gluon2025년 11월 11일댓글 수 로딩 중
[triton] AMD/Gluon: gfx1250에서 async_copy 런타임 테스트 추가 및 UpdateAsyncWaitCnt 활성화AMD gfx1250 아키텍처에서 async_copy의 다양한 shared memory layout 조합에 대한 런타임 테스트를 추가하고 UpdateAsyncWaitCnt를 활성화한 분석.#Triton#AMD#Gluon#gfx1250#Async Copy#Testing2025년 11월 6일댓글 수 로딩 중
[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.#Triton#AMD#gfx1250#Async#LLVM#GPU Architecture2025년 10월 24일댓글 수 로딩 중
[Triton] gfx1250에서 TDM Store 지원 추가AMD gfx1250 타겟에서 Tensor Data Mover를 통한 shared-to-global 비동기 store 연산 구현#Triton#AMD#gfx1250#TDM#Async2025년 10월 9일댓글 수 로딩 중