[triton] AMD GPU Descriptor Encoding 최적화 패스 추가AMD GFX1250 타겟에서 tensor descriptor의 shared memory encoding을 padded 방식으로 최적화하는 OptimizeDescriptorEncoding 패스를 추가한 PR을 분석합니다.#Triton#AMD GPU#Tensor Descriptor#Shared Memory#Optimization2026년 3월 30일댓글 수 로딩 중
[triton] AMD GFX1250 MachineSink 이슈 우회를 위한 fence 추가LLVM의 MachineSink 최적화가 LDS load를 barrier 너머로 이동시키는 버그를 우회하기 위해, AMD GFX1250 타겟에 compiler fence를 삽입한 PR을 분석합니다.#Triton#AMD GPU#LLVM#Compiler Bug#Workaround2026년 3월 3일댓글 수 로딩 중
[triton] AMD GFX1250에서 TDM Software Pipelining 지원AMD GFX1250 타겟에서 Tensor Descriptor Memory(TDM) 기반 비동기 복사를 software pipelining에 통합하여 matmul 성능을 향상시킨 PR을 분석합니다.#Triton#AMD GPU#GFX1250#TDM#Software Pipelining2026년 2월 17일댓글 수 로딩 중
[triton] AMD membarFilter에 bufferID 고려 추가AMD 백엔드의 membar 분석에서 buffer ID를 고려하여 불필요한 barrier 삽입을 줄이고, 재사용된 allocation 간 누락된 barrier를 올바르게 삽입하도록 개선한 PR을 분석합니다.#Triton#AMD GPU#Memory Barrier#Shared Memory#Optimization2026년 1월 22일댓글 수 로딩 중
[triton] AMD 비동기 복사에서 block 차원 중복 복사 허용AMD GPU의 async_copy_global_to_local에서 block 차원의 redundant copy를 허용하여, multi-CTA 환경에서 각 CTA가 자신의 shared memory에 데이터를 올바르게 복사하도록 수정한 PR을 분석합니다.#Triton#AMD GPU#Async Copy#Multi-CTA2025년 11월 20일댓글 수 로딩 중