#MultiCTA

5개의 포스트

[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산

NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.

#Triton #NVIDIA #GPU #MultiCTA #Tutorial #Blackwell

2026년 3월 6일

[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지

CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.

#Triton #Gluon #GPU #MultiCTA #Optimization

2026년 3월 5일

[triton] MultiCTA Membar에 Fence + Cluster Relaxed 자동 삽입

Triton의 MultiCTA 환경에서 cross-CTA mbarrier에 fence_mbarrier_init과 cluster arrive/wait를 자동 삽입하여 동기화 정합성을 보장하는 PR 분석.

#Triton #NVIDIA #MultiCTA #Membar #Fence #ClusterBarrier

2026년 3월 3일

[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원

multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.

#Triton #GPU #MultiCTA #SharedMemory #LinearLayout

2026년 2월 20일

[triton] Async TMA Lowering에서 Cluster Barrier 로직 수정

Triton의 TMA 비동기 복사에서 cluster barrier 사용 조건과 cross-CTA mbarrier init 동기화를 수정한 PR 분석.

#Triton #NVIDIA #TMA #ClusterBarrier #MultiCTA #BugFix

2026년 2월 19일