[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.#Triton#AMD#GPU#SharedMemory#AsyncCopy2026년 3월 27일댓글 수 로딩 중
[triton] AMD Async Wait Count에서 Warp Free Variable 및 Register Zero Base 버그 수정비정규 warp가 async copy를 건너뛰는 경우와 register zero base가 명령어 수를 부풀리는 문제를 수정한 사례를 분석합니다.#Triton#AMD#GPU#AsyncCopy#WarpSpecialization2026년 3월 26일댓글 수 로딩 중
[triton] Global Sanitizer에 TMA 및 cp.async 연산 부분 지원 추가Triton의 Global Sanitizer에 tensor descriptor 디코딩과 TMA/cp.async 연산의 메모리 접근 추적 기능을 추가한 PR 분석.#Triton#GSan#Sanitizer#TMA#AsyncCopy#Debugging2026년 3월 20일댓글 수 로딩 중
[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.#Triton#AMD#GPU#AsyncCopy#GFX12502026년 3월 18일댓글 수 로딩 중
[triton] AMD GFX9 AsyncCopy를 위한 Padded Layout 선택 확장AMD CDNA4(GFX9) GPU에서 async copy의 padded layout 선택을 8비트 데이터 타입과 더 넓은 kWidth로 확장하여 bank conflict를 줄인 PR 분석.#Triton#AMD#CDNA4#AsyncCopy#PaddedLayout#BankConflict2026년 3월 9일댓글 수 로딩 중
[triton] CLCTryCancel이 Async Proxy를 사용하도록 수정Triton NVIDIA 백엔드에서 CLCTryCancelOp을 async proxy write로 인식시켜 proxy fence가 올바르게 삽입되도록 수정한 PR 분석.#Triton#NVIDIA#CLC#ProxyFence#AsyncCopy#BugFix2026년 2월 16일댓글 수 로딩 중
[triton] AMD Async Load에 ROCDL Op 사용으로 전환AMD GPU의 async load 연산에서 LLVM intrinsic 문자열 기반 호출을 타입 안전한 ROCDL op으로 교체한 NFC(Non-Functional Change) PR 분석.#Triton#AMD#ROCDL#AsyncCopy#NFC#Refactoring2026년 2월 9일댓글 수 로딩 중
[Triton] AMD gfx950/gfx1250에 AsyncCopy 기본 활성화 — 파이프라인 성능 향상gfx950과 gfx1250 아키텍처에서 비동기 복사를 기본값으로 활성화하여 메모리 파이프라인 효율을 높인다#Triton#AMD#AsyncCopy#GPU Pipeline#Performance2025년 12월 23일댓글 수 로딩 중
[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원AMD CDNA 아키텍처에서 padded shared memory 레이아웃을 AsyncCopy와 함께 사용할 수 있도록 파이프라인 lowering을 확장#Triton#AMD#AsyncCopy#Padding#Pipeline2025년 10월 7일댓글 수 로딩 중