[triton] NVIDIA inval_barrier를 leader CTA에서만 실행하도록 변경multi-CTA 환경에서 broadcasted barrier의 inval_barrier 연산을 leader CTA에서만 실행하도록 수정하여, 올바른 barrier invalidation을 보장하는 PR을 분석합니다.#Triton#NVIDIA#Multi-CTA#Barrier#mbarrier2026년 2월 27일댓글 수 로딩 중