[triton] Multi-CTA 튜토리얼 추가: CGA 기반 협력 연산NVIDIA Hopper/Blackwell의 CGA(Cooperative Grid Array)를 활용한 multi-CTA 프로그래밍 튜토리얼을 추가한 사례를 분석합니다.#Triton#NVIDIA#GPU#MultiCTA#Tutorial#Blackwell2026년 3월 6일댓글 수 로딩 중
[Triton] grouped_gemm 벤치마크 min/max ms 반환 순서 수정perf_report에서 error bar가 뒤집히는 문제를 반환값 순서 교정으로 해결#Triton#Tutorial#Bug Fix#Benchmark2026년 2월 11일댓글 수 로딩 중
[triton] Tutorials: 벤치마크 결과 테이블에 단위(units) 표시 추가Triton 튜토리얼의 벤치마크 결과 테이블 컬럼에 ylabel 단위를 포함시켜 결과의 가독성을 개선한 변경 분석.#Triton#Tutorial#Benchmark#UX#Python2025년 11월 4일댓글 수 로딩 중