[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.#Triton#AMD#GPU#SharedMemory#AsyncCopy2026년 3월 27일댓글 수 로딩 중
[triton] AMD gfx1250에서 Async Copy와 TDM 경로의 Padded Layout 휴리스틱 통합AMD gfx1250 GPU의 async copy와 TDM 로드 경로에서 사용되는 padded shared memory layout 선택 휴리스틱을 통합한 PR 분석.#Triton#AMD#gfx1250#SharedMemory#Padding#BankConflict2026년 3월 17일댓글 수 로딩 중
[triton] AMD TensorDescType의 Shared Memory 크기 계산 수정WarpSpecialize capture에서 TensorDescType의 크기를 정확히 계산하도록 수정하여 shared memory 할당 오류를 방지한 사례를 분석합니다.#Triton#AMD#GPU#WarpSpecialize#SharedMemory2026년 2월 20일댓글 수 로딩 중
[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.#Triton#GPU#MultiCTA#SharedMemory#LinearLayout2026년 2월 20일댓글 수 로딩 중
[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.#Triton#AMD#LDS#LinearLayout#SharedMemory#Optimization2025년 10월 16일댓글 수 로딩 중