[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#Atomics2026년 3월 16일댓글 수 로딩 중
[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.#Triton#AMD#GPU#Atomics#BugFix2026년 3월 14일댓글 수 로딩 중