#LinearLayout

6개의 포스트

[triton] getTranspositionSelectors 알고리즘 단순화 및 복원

다중 mixed transposition에서의 정합성 문제를 해결하고, prmt selector 알고리즘의 수학적 분해를 명확히 정리한 사례를 분석합니다.

#Triton #GPU #LinearLayout #Optimization #Algorithm

2026년 3월 19일

[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원

multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.

#Triton #GPU #MultiCTA #SharedMemory #LinearLayout

2026년 2월 20일

[Triton] ReduceOp 로우어링을 LinearLayout 기반으로 개선 및 단순화

ReduceOp 로우어링을 LinearLayout 기반으로 재설계하여 shmem swizzling 활용, 불필요한 round-trip 제거

#Triton #MLIR #Compiler Optimization #LinearLayout #Refactoring

2026년 1월 12일

[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원

warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.

#Triton #AMD #WMMA #LinearLayout #GPU Layout #gfx1250

2025년 12월 29일

[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원

to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장

#Triton #Gluon #NVIDIA #TensorMemory #LinearLayout

2025년 11월 21일

[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원

AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.

#Triton #AMD #LDS #LinearLayout #SharedMemory #Optimization

2025년 10월 16일