[triton] AMD gfx1250에서 Async Copy와 TDM 경로의 Padded Layout 휴리스틱 통합AMD gfx1250 GPU의 async copy와 TDM 로드 경로에서 사용되는 padded shared memory layout 선택 휴리스틱을 통합한 PR 분석.#Triton#AMD#gfx1250#SharedMemory#Padding#BankConflict2026년 3월 17일댓글 수 로딩 중
[triton] Reduce 커널에 Unpadded Batch Size 핸들링 추가Triton Kernels의 reduce 커널에 unpadded batch size를 지원하여 패딩된 배치에서 불필요한 연산을 건너뛰도록 개선한 PR 분석.#Triton#TritonKernels#Reduce#Padding#BatchSize#Performance2026년 1월 30일댓글 수 로딩 중
[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원AMD CDNA 아키텍처에서 padded shared memory 레이아웃을 AsyncCopy와 함께 사용할 수 있도록 파이프라인 lowering을 확장#Triton#AMD#AsyncCopy#Padding#Pipeline2025년 10월 7일댓글 수 로딩 중
[Triton] ds_read_tr + padded layout에서 vec size를 min interval로 제한padded shared memory 레이아웃에서 ds_read_tr의 벡터 크기가 padding 간격을 초과하지 않도록 수정#Triton#AMD#Shared Memory#Padding#Bug Fix2025년 10월 6일댓글 수 로딩 중