[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.#Triton#NVIDIA#GPU#MultiCTA#Tutorial#Blackwell2026년 3월 6일댓글 수 로딩 중
[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.#Triton#Gluon#GPU#MultiCTA#Optimization2026년 3월 5일댓글 수 로딩 중
[triton] MultiCTA Membar에 Fence + Cluster Relaxed 자동 삽입Triton의 MultiCTA 환경에서 cross-CTA mbarrier에 fence_mbarrier_init과 cluster arrive/wait를 자동 삽입하여 동기화 정합성을 보장하는 PR 분석.#Triton#NVIDIA#MultiCTA#Membar#Fence#ClusterBarrier2026년 3월 3일댓글 수 로딩 중
[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.#Triton#GPU#MultiCTA#SharedMemory#LinearLayout2026년 2월 20일댓글 수 로딩 중
[triton] Async TMA Lowering에서 Cluster Barrier 로직 수정Triton의 TMA 비동기 복사에서 cluster barrier 사용 조건과 cross-CTA mbarrier init 동기화를 수정한 PR 분석.#Triton#NVIDIA#TMA#ClusterBarrier#MultiCTA#BugFix2026년 2월 19일댓글 수 로딩 중