[triton] getTranspositionSelectors 알고리즘 단순화 및 복원다중 mixed transposition에서의 정합성 문제를 해결하고, prmt selector 알고리즘의 수학적 분해를 명확히 정리한 사례를 분석합니다.#Triton#GPU#LinearLayout#Optimization#Algorithm2026년 3월 19일댓글 수 로딩 중
[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.#Triton#GPU#MultiCTA#SharedMemory#LinearLayout2026년 2월 20일댓글 수 로딩 중
[Triton] ReduceOp 로우어링을 LinearLayout 기반으로 개선 및 단순화ReduceOp 로우어링을 LinearLayout 기반으로 재설계하여 shmem swizzling 활용, 불필요한 round-trip 제거#Triton#MLIR#Compiler Optimization#LinearLayout#Refactoring2026년 1월 12일댓글 수 로딩 중
[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.#Triton#AMD#WMMA#LinearLayout#GPU Layout#gfx12502025년 12월 29일댓글 수 로딩 중
[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장#Triton#Gluon#NVIDIA#TensorMemory#LinearLayout2025년 11월 21일댓글 수 로딩 중
[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.#Triton#AMD#LDS#LinearLayout#SharedMemory#Optimization2025년 10월 16일댓글 수 로딩 중