[Triton] AMD GFX9에서 AsyncCopy shared layout order 수정getElementsPerThread 대신 getContigPerThread를 사용하고 vecSize를 하드웨어 지원 범위로 clamp하여 coalesced direct-to-LDS 쓰기 보장#Triton#AMD#GFX9#Async Copy#Bug Fix2026년 2월 5일댓글 수 로딩 중
[Triton] 소규모 async_cp를 위한 최적 레이아웃 선택작은 텐서의 async copy 시 coalesced encoding을 독립적으로 선택하여 불필요한 convert_layout 제거#Triton#MLIR#Compiler Optimization#GPU#Async Copy2026년 1월 9일댓글 수 로딩 중
[Triton] gfx1250에 async_copy_local_to_global 추가Gluon에서 GFX1250의 shared-to-global 비동기 복사를 지원하는 Op 정의, lowering, 테스트 추가#Triton#AMD#gfx1250#Gluon#Async Copy2025년 12월 16일댓글 수 로딩 중
[triton] AMD 비동기 복사에서 block 차원 중복 복사 허용AMD GPU의 async_copy_global_to_local에서 block 차원의 redundant copy를 허용하여, multi-CTA 환경에서 각 CTA가 자신의 shared memory에 데이터를 올바르게 복사하도록 수정한 PR을 분석합니다.#Triton#AMD GPU#Async Copy#Multi-CTA2025년 11월 20일댓글 수 로딩 중
[Triton] Pipeliner에서 cp_async의 alignment 정보 손실 수정async_copy Op에 optional contiguity 정보를 추가하여 컴파일러 변환 후에도 정렬 정보 유지#Triton#Compiler#Pipeliner#Async Copy#Bug Fix2025년 11월 18일댓글 수 로딩 중
[Triton] gfx1250에서 async_copy multicast 지원AMD gfx1250 타겟의 async_copy_global_to_local에 cluster load 기반 multicast를 추가하여 CTA간 데이터 공유 지원#Triton#AMD#Multicast#Async Copy#gfx12502025년 11월 16일댓글 수 로딩 중
[triton] AMD/Gluon: gfx1250에서 async_copy 런타임 테스트 추가 및 UpdateAsyncWaitCnt 활성화AMD gfx1250 아키텍처에서 async_copy의 다양한 shared memory layout 조합에 대한 런타임 테스트를 추가하고 UpdateAsyncWaitCnt를 활성화한 분석.#Triton#AMD#Gluon#gfx1250#Async Copy#Testing2025년 11월 6일댓글 수 로딩 중