[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.#Triton#AMD#WMMA#Gluon#Optimization2026년 3월 25일댓글 수 로딩 중
[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.#Triton#Gluon#GPU#MultiCTA#Optimization2026년 3월 5일댓글 수 로딩 중
[triton] Gluon tmem_load에서 Register Layout 자동 추론get_tmem_reg_layout 호출을 제거하고 tensor memory descriptor에서 register layout을 자동으로 추론하도록 BC-breaking 변경을 적용한 사례를 분석합니다.#Triton#Gluon#NVIDIA#Blackwell#TensorMemory2026년 2월 28일댓글 수 로딩 중
[triton] Gluon에서 3D Dot FMA 연산 노출Triton Gluon 프론트엔드에서 batched(3D) matrix multiplication을 FMA dot 연산으로 지원하도록 확장한 PR 분석.#Triton#Gluon#DotFMA#BatchedMatMul#3D#GPU2026년 2월 25일댓글 수 로딩 중
[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.#Triton#AMD#gfx1250#FlashAttention#MXFP#Gluon2026년 2월 20일댓글 수 로딩 중
[triton] NVIDIA TMA im2col 모드 Gluon 튜토리얼 - Convolution 커널 구현Triton Gluon을 사용하여 NVIDIA Blackwell GPU의 TMA im2col 모드로 Convolution 커널을 구현하는 튜토리얼 PR을 분석합니다.#Triton#NVIDIA#TMA#Convolution#Gluon2026년 2월 16일댓글 수 로딩 중
[Triton] TMA im2col 모드 — Gluon API 구현TMA im2col 시리즈의 Gluon DSL API 구현으로, Python에서 im2col 모드 TMA 복사를 직접 사용할 수 있게 한다#Triton#NVIDIA#TMA#im2col#Gluon#Convolution2026년 2월 9일댓글 수 로딩 중
[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.#Triton#NVIDIA#Blackwell#GPU#Gluon2026년 2월 6일댓글 수 로딩 중
[triton] AMD gfx1250 Gluon에 Tensor Async Gather(TDM) 지원 추가AMD gfx1250 GPU의 TDM gather 모드를 활용하여 비연속 global memory 행에서 비동기적으로 데이터를 읽는 기능을 Gluon에 추가한 PR 분석.#Triton#AMD#gfx1250#Gluon#TDM#Gather2026년 2월 1일댓글 수 로딩 중
[triton] AMD gfx1250 Gluon에 Tensor Async Scatter 지원 추가AMD gfx1250 GPU의 TDM scatter 모드를 활용하여 비연속 global memory 행에 비동기적으로 데이터를 쓰는 기능을 Gluon에 추가한 PR 분석.#Triton#AMD#gfx1250#Gluon#TDM#Scatter2026년 1월 26일댓글 수 로딩 중
[Triton] AMD fine-grained cluster barrier 추가 및 Gluon 노출CTA 간 실행 동기화를 위한 cluster barrier arrive/wait 연산을 AMD 백엔드에 추가#Triton#AMD#Gluon#Multi-CTA#Synchronization2026년 1월 15일댓글 수 로딩 중
[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다#Triton#AMD#Gluon#L2 Cache#Prefetch#GPU Optimization2026년 1월 8일댓글 수 로딩 중
[triton] Gluon TMA Op Verifier 강화 및 Illegal Instruction Sanitize 모드 추가Triton Gluon의 TMA 연산 verifier를 강화하고, descriptor와 tensor 간의 element 수 일치 검증, 그리고 illegal instruction sanitize 모드를 추가한 PR 분석.#Triton#Gluon#TMA#Verifier#Sanitizer#MLIR2026년 1월 7일댓글 수 로딩 중
[Triton] Gluon 검증 로직을 C++ verifier로 이동 — 차원 축소 로드 지원Python assert 기반 검증을 C++ verifier로 이동하여 dimension-reducing load를 올바르게 지원한다#Triton#Gluon#MLIR#Verifier#Refactoring2025년 12월 18일댓글 수 로딩 중
[Triton] gfx1250에 async_copy_local_to_global 추가Gluon에서 GFX1250의 shared-to-global 비동기 복사를 지원하는 Op 정의, lowering, 테스트 추가#Triton#AMD#gfx1250#Gluon#Async Copy2025년 12월 16일댓글 수 로딩 중
[Triton] Gluon Dialect verifier 강화 및 에러 메시지 개선NVMMASharedEncoding 검증, TMA 함수 verifier 추가, DotOpMMASmemLoader를 fallible하게 변경하여 illegal instruction 방지#Triton#Gluon#MLIR#Verifier#Error Handling2025년 12월 14일댓글 수 로딩 중
[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.#Triton#AMD#Warp Pipeline#Gluon#LLVM#GPU Optimization2025년 12월 11일댓글 수 로딩 중
[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장#Triton#Gluon#NVIDIA#TensorMemory#LinearLayout2025년 11월 21일댓글 수 로딩 중
[Triton] Gluon에 coalesced layout 추가 — 메모리 접근 효율 최적화Gluon DSL에 coalesced layout을 도입하여 글로벌 메모리 접근의 coalescing을 자동으로 보장한다#Triton#Gluon#Memory Coalescing#Layout#GPU Optimization2025년 11월 13일댓글 수 로딩 중
[Triton] AMD gfx1250에 LDS 메모리 배리어 지원 추가gfx1250 아키텍처의 LDS memory barrier op을 구현하고 Gluon DSL에 노출한다#Triton#AMD#LDS#Memory Barrier#gfx1250#Gluon2025년 11월 11일댓글 수 로딩 중
[triton] AMD/Gluon: gfx1250에서 async_copy 런타임 테스트 추가 및 UpdateAsyncWaitCnt 활성화AMD gfx1250 아키텍처에서 async_copy의 다양한 shared memory layout 조합에 대한 런타임 테스트를 추가하고 UpdateAsyncWaitCnt를 활성화한 분석.#Triton#AMD#Gluon#gfx1250#Async Copy#Testing2025년 11월 6일댓글 수 로딩 중
[Triton] AMD Gluon에서 async_wait을 commit group 기반으로 변경하드웨어 명령어 수 대신 commit group 수 기반으로 async_wait 의미론을 변경하여 Gluon 커널 작성 편의성 향상#Triton#AMD#Gluon#Async Wait#Compiler2025년 11월 1일댓글 수 로딩 중
[Triton] Gluon 레이아웃 검증 에러 메시지 개선TMA copy 연산의 레이아웃 검증 실패 시 더 명확한 에러 메시지를 제공하도록 개선#Triton#Gluon#NVIDIA#Error Handling#DX2025년 10월 20일댓글 수 로딩 중
[triton] Gluon에 mma_scaled 연산 헬퍼 및 실행 테스트 추가Triton Gluon 프론트엔드에 Blackwell tcgen05_mma_scaled 연산을 지원하는 헬퍼 함수와 실행 테스트를 추가한 PR 분석.#Triton#Gluon#Blackwell#MMA#Scaled#TensorCore2025년 10월 9일댓글 수 로딩 중