[triton] AMD: BufferLoadToLocal을 UpdateAsyncWaitCount에 포함하여 성능 회귀 수정buffer_load_to_local 명령어를 비동기 대기 카운트 계산에 포함시켜 보수적 wait으로 인한 성능 저하를 해결한 분석.#Triton#AMD#Async#Buffer Operations#Performance2025년 11월 2일댓글 수 로딩 중
[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.#Triton#AMD#gfx1250#Async#LLVM#GPU Architecture2025년 10월 24일댓글 수 로딩 중
[Triton] gfx1250에서 TDM Store 지원 추가AMD gfx1250 타겟에서 Tensor Data Mover를 통한 shared-to-global 비동기 store 연산 구현#Triton#AMD#gfx1250#TDM#Async2025년 10월 9일댓글 수 로딩 중