#Gluon

24개의 포스트

[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩

LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.

#Triton #AMD #WMMA #Gluon #Optimization

2026년 3월 25일

[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지

CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.

#Triton #Gluon #GPU #MultiCTA #Optimization

2026년 3월 5일

[triton] Gluon tmem_load에서 Register Layout 자동 추론

get_tmem_reg_layout 호출을 제거하고 tensor memory descriptor에서 register layout을 자동으로 추론하도록 BC-breaking 변경을 적용한 사례를 분석합니다.

#Triton #Gluon #NVIDIA #Blackwell #TensorMemory

2026년 2월 28일

[triton] Gluon에서 3D Dot FMA 연산 노출

Triton Gluon 프론트엔드에서 batched(3D) matrix multiplication을 FMA dot 연산으로 지원하도록 확장한 PR 분석.

#Triton #Gluon #DotFMA #BatchedMatMul #3D #GPU

2026년 2월 25일

[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트

AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.

#Triton #AMD #gfx1250 #FlashAttention #MXFP #Gluon

2026년 2월 20일

[triton] NVIDIA TMA im2col 모드 Gluon 튜토리얼 - Convolution 커널 구현

Triton Gluon을 사용하여 NVIDIA Blackwell GPU의 TMA im2col 모드로 Convolution 커널을 구현하는 튜토리얼 PR을 분석합니다.

#Triton #NVIDIA #TMA #Convolution #Gluon

2026년 2월 16일

[Triton] TMA im2col 모드 — Gluon API 구현

TMA im2col 시리즈의 Gluon DSL API 구현으로, Python에서 im2col 모드 TMA 복사를 직접 사용할 수 있게 한다

#Triton #NVIDIA #TMA #im2col #Gluon #Convolution

2026년 2월 9일

[triton] Blackwell GPU Cluster Launch Control 지원으로 Persistent Kernel 워크로드 밸런싱 구현

Triton Gluon에 NVIDIA Blackwell SM100+ GPU의 CLC(Cluster Launch Control) 기능을 추가하여 persistent kernel에서 동적 작업 분배를 가능하게 한 PR을 분석합니다.

#Triton #NVIDIA #Blackwell #GPU #Gluon

2026년 2월 6일

[triton] AMD gfx1250 Gluon에 Tensor Async Gather(TDM) 지원 추가

AMD gfx1250 GPU의 TDM gather 모드를 활용하여 비연속 global memory 행에서 비동기적으로 데이터를 읽는 기능을 Gluon에 추가한 PR 분석.

#Triton #AMD #gfx1250 #Gluon #TDM #Gather

2026년 2월 1일

[triton] AMD gfx1250 Gluon에 Tensor Async Scatter 지원 추가

AMD gfx1250 GPU의 TDM scatter 모드를 활용하여 비연속 global memory 행에 비동기적으로 데이터를 쓰는 기능을 Gluon에 추가한 PR 분석.

#Triton #AMD #gfx1250 #Gluon #TDM #Scatter

2026년 1월 26일

[Triton] AMD fine-grained cluster barrier 추가 및 Gluon 노출

CTA 간 실행 동기화를 위한 cluster barrier arrive/wait 연산을 AMD 백엔드에 추가

#Triton #AMD #Gluon #Multi-CTA #Synchronization

2026년 1월 15일

[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어

AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다

#Triton #AMD #Gluon #L2 Cache #Prefetch #GPU Optimization

2026년 1월 8일

[triton] Gluon TMA Op Verifier 강화 및 Illegal Instruction Sanitize 모드 추가

Triton Gluon의 TMA 연산 verifier를 강화하고, descriptor와 tensor 간의 element 수 일치 검증, 그리고 illegal instruction sanitize 모드를 추가한 PR 분석.

#Triton #Gluon #TMA #Verifier #Sanitizer #MLIR

2026년 1월 7일

[Triton] Gluon 검증 로직을 C++ verifier로 이동 — 차원 축소 로드 지원

Python assert 기반 검증을 C++ verifier로 이동하여 dimension-reducing load를 올바르게 지원한다

#Triton #Gluon #MLIR #Verifier #Refactoring

2025년 12월 18일

[Triton] gfx1250에 async_copy_local_to_global 추가

Gluon에서 GFX1250의 shared-to-global 비동기 복사를 지원하는 Op 정의, lowering, 테스트 추가

#Triton #AMD #gfx1250 #Gluon #Async Copy

2025년 12월 16일

[Triton] Gluon Dialect verifier 강화 및 에러 메시지 개선

NVMMASharedEncoding 검증, TMA 함수 verifier 추가, DotOpMMASmemLoader를 fallible하게 변경하여 illegal instruction 방지

#Triton #Gluon #MLIR #Verifier #Error Handling

2025년 12월 14일

[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지

AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.

#Triton #AMD #Warp Pipeline #Gluon #LLVM #GPU Optimization

2025년 12월 11일

[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원

to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장

#Triton #Gluon #NVIDIA #TensorMemory #LinearLayout

2025년 11월 21일

[Triton] Gluon에 coalesced layout 추가 — 메모리 접근 효율 최적화

Gluon DSL에 coalesced layout을 도입하여 글로벌 메모리 접근의 coalescing을 자동으로 보장한다

#Triton #Gluon #Memory Coalescing #Layout #GPU Optimization

2025년 11월 13일

[Triton] AMD gfx1250에 LDS 메모리 배리어 지원 추가

gfx1250 아키텍처의 LDS memory barrier op을 구현하고 Gluon DSL에 노출한다

#Triton #AMD #LDS #Memory Barrier #gfx1250 #Gluon

2025년 11월 11일

[triton] AMD/Gluon: gfx1250에서 async_copy 런타임 테스트 추가 및 UpdateAsyncWaitCnt 활성화

AMD gfx1250 아키텍처에서 async_copy의 다양한 shared memory layout 조합에 대한 런타임 테스트를 추가하고 UpdateAsyncWaitCnt를 활성화한 분석.

#Triton #AMD #Gluon #gfx1250 #Async Copy #Testing

2025년 11월 6일

[Triton] AMD Gluon에서 async_wait을 commit group 기반으로 변경

하드웨어 명령어 수 대신 commit group 수 기반으로 async_wait 의미론을 변경하여 Gluon 커널 작성 편의성 향상

#Triton #AMD #Gluon #Async Wait #Compiler

2025년 11월 1일

[Triton] Gluon 레이아웃 검증 에러 메시지 개선

TMA copy 연산의 레이아웃 검증 실패 시 더 명확한 에러 메시지를 제공하도록 개선

#Triton #Gluon #NVIDIA #Error Handling #DX

2025년 10월 20일

[triton] Gluon에 mma_scaled 연산 헬퍼 및 실행 테스트 추가

Triton Gluon 프론트엔드에 Blackwell tcgen05_mma_scaled 연산을 지원하는 헬퍼 함수와 실행 테스트를 추가한 PR 분석.

#Triton #Gluon #Blackwell #MMA #Scaled #TensorCore

2025년 10월 9일