[triton] ConSan Multi-CTA 지원 추가Triton의 Concurrency Sanitizer(ConSan)에 multi-CTA 클러스터 환경 지원을 추가하여, 클러스터 내 여러 CTA가 공유하는 scratch memory 상태를 올바르게 추적하도록 개선한 PR을 분석합니다.#Triton#GPU Compiler#Concurrency Sanitizer#Multi-CTA#CUDA2026년 3월 19일댓글 수 로딩 중
[Triton] FenceAsync에 비동기 읽기 의존성 추가 — st.shared와 copy_local_to_global 간 정합성 보장비동기 프록시 읽기 연산에 대한 fence 삽입 누락 버그를 수정하여 공유 메모리 쓰기와 글로벌 복사 간 데이터 정합성을 보장한다#Triton#MLIR#NVIDIA#Memory Fence#GPU Compiler2026년 3월 2일댓글 수 로딩 중
[triton] Generic Multi-CTA convert_layout 지원Triton의 convert_layout 연산을 multi-CTA 환경에서 범용적으로 처리하도록 확장한 PR을 분석합니다. CTA 간 데이터 전송을 위한 cluster barrier와 distributed shared memory 활용 방식을 살펴봅니다.#Triton#GPU Compiler#Multi-CTA#Layout Conversion#MLIR2026년 2월 9일댓글 수 로딩 중
[triton] FpSan - Floating Point Sanitizer 도입GPU 커널의 부동소수점 연산 오류를 런타임에 감지하는 FpSan(Floating Point Sanitizer)을 Triton에 도입한 PR을 분석합니다. MLIR 패스를 통해 FP 연산을 integer payload 방식으로 rewrite합니다.#Triton#GPU Compiler#Floating Point#Sanitizer#MLIR2026년 2월 6일댓글 수 로딩 중