[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.#Triton#AMD#Compiler#Bug Fix#MLIR2026년 4월 1일댓글 수 로딩 중
[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보#Triton#AMD#gfx1250#GEMM#Tensor Descriptor#Testing2026년 3월 31일댓글 수 로딩 중
[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결#SGLang#AMD#ROCm#MoE#GEMM2026년 3월 31일댓글 수 로딩 중
[triton] AMD TDM의 Partition-Aware 분할 및 다중 Intrinsic 지원PartitionedSharedEncoding에서 TDM warp 배분을 파티션 경계에 맞추고, 다중 TDM 명령어 생성 및 wait count 계산을 올바르게 처리하도록 개선한 사례를 분석합니다.#Triton#AMD#GPU#TDM#WarpDistribution2026년 3월 28일댓글 수 로딩 중
[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.#Triton#AMD#GPU#SharedMemory#AsyncCopy2026년 3월 27일댓글 수 로딩 중
[triton] AMD Async Wait Count에서 Warp Free Variable 및 Register Zero Base 버그 수정비정규 warp가 async copy를 건너뛰는 경우와 register zero base가 명령어 수를 부풀리는 문제를 수정한 사례를 분석합니다.#Triton#AMD#GPU#AsyncCopy#WarpSpecialization2026년 3월 26일댓글 수 로딩 중
[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.#SGLang#AMD#ROCm#Bug Fix#Lazy Import#Linear Attention2026년 3월 25일댓글 수 로딩 중
[triton] AMD 백엔드에 Concurrency Sanitizer(ConSan) 지원 추가AMD GPU에서 GPU 동시성 버그를 감지하는 ConSan을 지원하기 위해 MBarrierOpInterface, 타겟 훅, 캡처 카운트 추정 등을 구현한 사례를 분석합니다.#Triton#AMD#GPU#ConSan#Sanitizer#Concurrency2026년 3월 26일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.#Triton#AMD#GPU#Optimization#GEMM2026년 3월 25일댓글 수 로딩 중
[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.#Triton#AMD#WMMA#Gluon#Optimization2026년 3월 25일댓글 수 로딩 중
[triton] AMD MXFP FA 예제에서 TDM Store 도입으로 Output 저장 최적화buffer_store 기반의 수동 레이아웃 관리를 TDM store로 대체하여 코드를 단순화하고 메모리 접근 효율을 높인 사례를 분석합니다.#Triton#AMD#GPU#TDM#FlashAttention2026년 3월 23일댓글 수 로딩 중
[Triton] AMD RDNA3에서 buffer cache modifier LLVM IR 전파RDNA3 타겟에서 .cg/.cs/.cv/.wt cache modifier가 무시되던 문제를 수정하여 non-temporal 메모리 접근 지원#Triton#AMD#RDNA3#Cache Optimization#LLVM IR2026년 3월 21일댓글 수 로딩 중
[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.#Triton#AMD#GPU#AsyncCopy#GFX12502026년 3월 18일댓글 수 로딩 중
[triton] AMD gfx1250에서 Async Copy와 TDM 경로의 Padded Layout 휴리스틱 통합AMD gfx1250 GPU의 async copy와 TDM 로드 경로에서 사용되는 padded shared memory layout 선택 휴리스틱을 통합한 PR 분석.#Triton#AMD#gfx1250#SharedMemory#Padding#BankConflict2026년 3월 17일댓글 수 로딩 중
[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#Atomics2026년 3월 16일댓글 수 로딩 중
[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.#Triton#AMD#GPU#Atomics#BugFix2026년 3월 14일댓글 수 로딩 중
[triton] AMD Pipelined Loop에서 TDM Load의 Buffer Race 수정AMD GPU의 pipelined loop에서 TDM load 사용 시 버퍼 수가 부족하여 발생하는 데이터 경쟁 버그를 수정한 PR 분석.#Triton#AMD#TDM#Pipeline#BufferRace#BugFix2026년 3월 14일댓글 수 로딩 중
[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.#Triton#AMD#GPU#FlashAttention#GFX1250#Refactoring2026년 3월 12일댓글 수 로딩 중
[triton] AMD GFX9 AsyncCopy를 위한 Padded Layout 선택 확장AMD CDNA4(GFX9) GPU에서 async copy의 padded layout 선택을 8비트 데이터 타입과 더 넓은 kWidth로 확장하여 bank conflict를 줄인 PR 분석.#Triton#AMD#CDNA4#AsyncCopy#PaddedLayout#BankConflict2026년 3월 9일댓글 수 로딩 중
[triton] AMD FpSan dot 에뮬레이션의 MFMA/WMMA encoding 호환성 수정FP Sanitizer의 dot 에뮬레이션에서 MFMA/WMMA 인코딩 대신 최적화된 blocked layout을 사용하고 cross-warp barrier를 추가하여 정확성을 보장한 PR을 분석합니다.#Triton#AMD#FpSan#Bug Fix#MFMA2026년 3월 6일댓글 수 로딩 중
[triton] AMD BlockPingpong 패스의 non-MFMA dot 크래시 수정AMD BlockPingpong 최적화가 FMA 기반 dot 연산에 적용되어 발생하던 크래시를 안전한 타입 캐스팅으로 수정한 PR을 분석합니다.#Triton#AMD#Bug Fix#Pingpong#MFMA2026년 3월 3일댓글 수 로딩 중
[triton] AMD Software Warp Pipeline에서 크래시 수정AMD GPU의 ConvertWarpPipeline pass에서 AsyncWaitOp을 barrier로 인식하지 못해 발생하던 크래시를 수정하고 barrier 정렬 로직을 개선한 PR 분석.#Triton#AMD#WarpPipeline#AsyncWait#BugFix#SWP2026년 3월 3일댓글 수 로딩 중
[triton] AMD ConvertWarpPipeline에서 AsyncWaitOp 인식 및 Barrier 정렬 수정AMD GPU의 warp pipeline 변환에서 AsyncWaitOp을 barrier로 인식하고 bars 배열 정렬 버그를 수정한 PR 분석.#Triton#AMD#WarpPipeline#AsyncWait#BugFix2026년 2월 27일댓글 수 로딩 중
[triton] AMD Batched WMMA Scaled에서 스케일 레이아웃 수정AMD gfx1250 GPU의 batched WMMA scaled 연산에서 스케일 텐서의 차원 순서 처리 버그를 수정하고 batched 테스트를 추가한 PR 분석.#Triton#AMD#WMMA#Scale#BatchedMatMul#BugFix2026년 2월 23일댓글 수 로딩 중
[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.#Triton#AMD#gfx1250#FlashAttention#MXFP#Gluon2026년 2월 20일댓글 수 로딩 중
[triton] AMD TensorDescType의 Shared Memory 크기 계산 수정WarpSpecialize capture에서 TensorDescType의 크기를 정확히 계산하도록 수정하여 shared memory 할당 오류를 방지한 사례를 분석합니다.#Triton#AMD#GPU#WarpSpecialize#SharedMemory2026년 2월 20일댓글 수 로딩 중
[triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화루프 내 버퍼 로드 시 오프셋 기반 주소 계산을 베이스 포인터 증분 방식으로 변경하여 연산 효율성을 개선했습니다.#Triton#AMD#Compiler Optimization#MLIR#GPU2026년 2월 20일댓글 수 로딩 중
[triton] AMD TargetInfo에 16/32비트 Elementwise 벡터화 지원 추가AMD GPU의 TargetInfo에 supportBitwidth16Elementwise와 supportBitwidth32Elementwise를 활성화하여 reduction 코드 생성을 최적화한 PR을 분석합니다.#Triton#AMD#Vectorization#Reduction#GFX12502026년 2월 19일댓글 수 로딩 중
[triton] AMD GFX950에서 Padded Layout Async Copy의 OOM 버그 수정작은 타일 크기에서 padding interval이 contiguous 차원보다 큰 경우를 처리하여 pipelining 시 OOM을 방지한 사례를 분석합니다.#Triton#AMD#GPU#GFX950#Pipelining#BugFix2026년 2월 18일댓글 수 로딩 중
[triton] AMD 백엔드에서 Floating-Point Sanitizer(FPSan) 지원 활성화AMD GPU(CDNA3/CDNA4/GFX1250)에서 FPSan을 지원하도록 테스트를 확장하고, warp size 차이에 따른 레이아웃 문제를 해결한 사례를 분석합니다.#Triton#AMD#GPU#FPSan#Testing2026년 2월 17일댓글 수 로딩 중
[Triton] HIPBackend에서 import torch 가드 추가 — JAX 호환성 복원torch 없는 환경(jax-triton)에서 AMD 백엔드 사용 시 ImportError 수정#Triton#AMD#Python#Bug Fix#Compatibility2026년 2월 17일댓글 수 로딩 중
[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.#Triton#AMD#GPU#Attention#Optimization2026년 2월 10일댓글 수 로딩 중
[triton] AMD: PartitionedSharedEncodingAttr의 LLVM lowering 지원으로 공유 메모리 파티셔닝 구현텐서를 여러 물리적 공유 메모리 파티션에 분할 저장하여 파티션 충돌을 줄이는 PartitionedSharedEncodingAttr의 LLVM IR 변환 구현 분석.#Triton#AMD#LLVM#Shared Memory#Partitioning#MLIR2026년 2월 10일댓글 수 로딩 중
[triton] AMD Async Load에 ROCDL Op 사용으로 전환AMD GPU의 async load 연산에서 LLVM intrinsic 문자열 기반 호출을 타입 안전한 ROCDL op으로 교체한 NFC(Non-Functional Change) PR 분석.#Triton#AMD#ROCDL#AsyncCopy#NFC#Refactoring2026년 2월 9일댓글 수 로딩 중
[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.#Triton#AMD#GPU#GFX1250#GEMM#WarpPipeline2026년 2월 5일댓글 수 로딩 중
[Triton] AMD GFX9에서 AsyncCopy shared layout order 수정getElementsPerThread 대신 getContigPerThread를 사용하고 vecSize를 하드웨어 지원 범위로 clamp하여 coalesced direct-to-LDS 쓰기 보장#Triton#AMD#GFX9#Async Copy#Bug Fix2026년 2월 5일댓글 수 로딩 중
[triton] AMD GFX1250을 위한 Triton Stream-K 커널 최적화: 4/8 Warp 구현AMD GFX1250 아키텍처에서 Stream-K 커널의 성능을 극대화하기 위한 4/8 warp 병렬 처리 및 atomic lock 최적화 기법 분석.#Triton#AMD#GFX1250#Stream-K#GPU-Optimization2026년 2월 4일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가#Triton#AMD#MLIR#Shared Memory#Memory Optimization2026년 2월 4일댓글 수 로딩 중
[Triton] AMD TDM AsyncWait을 UpdateAsyncWaitCount에서 지원TDM scatter/gather가 여러 intrinsic을 생성하는 경우의 정확한 waitcnt 계산 지원#Triton#AMD#TDM#Async Wait#Compiler2026년 2월 2일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입 — shared memory 파티션 충돌 감소텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict 감소#Triton#AMD#MLIR#Shared Memory#Architecture2026년 2월 2일댓글 수 로딩 중
[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.#Triton#AMD#Refactoring#Compiler#Pipeline2026년 2월 1일댓글 수 로딩 중
[triton] AMD gfx1250 Gluon에 Tensor Async Gather(TDM) 지원 추가AMD gfx1250 GPU의 TDM gather 모드를 활용하여 비연속 global memory 행에서 비동기적으로 데이터를 읽는 기능을 Gluon에 추가한 PR 분석.#Triton#AMD#gfx1250#Gluon#TDM#Gather2026년 2월 1일댓글 수 로딩 중
[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법#Triton#AMD#GPU#LLVM#Optimization2026년 1월 30일댓글 수 로딩 중
[triton] AMD gfx1250 Gluon에 Tensor Async Scatter 지원 추가AMD gfx1250 GPU의 TDM scatter 모드를 활용하여 비연속 global memory 행에 비동기적으로 데이터를 쓰는 기능을 Gluon에 추가한 PR 분석.#Triton#AMD#gfx1250#Gluon#TDM#Scatter2026년 1월 26일댓글 수 로딩 중
[Triton] AMD PrepareIfCombining 패스 추가 — scf.if 병합 최적화동일 조건의 인접 scf.if 연산 사이 명령어를 이동시켜 canonicalizer가 if를 병합하도록 지원#Triton#AMD#MLIR#Compiler Optimization#Control Flow2026년 1월 24일댓글 수 로딩 중
[Triton] AMD TDM 기능 활성화 및 ConvertToTensorOps 패스 추가TDM(Tensor Descriptor Memory) 관련 기능 활성화와 ConvertToTensorOps 변환 패스 추가#Triton#AMD#TDM#Tensor Descriptor#Compiler Pass2026년 1월 23일댓글 수 로딩 중
[triton] moveUpTranspose 최적화 제거 PR의 Revert - 회귀 방지일부 워크로드에서 성능 회귀를 유발한 moveUpTranspose 제거를 되돌려, TransposeOp 재배치 최적화를 복원한 PR을 분석합니다.#Triton#AMD#Revert#Performance#Regression2026년 1월 15일댓글 수 로딩 중
[Triton] AMD fine-grained cluster barrier 추가 및 Gluon 노출CTA 간 실행 동기화를 위한 cluster barrier arrive/wait 연산을 AMD 백엔드에 추가#Triton#AMD#Gluon#Multi-CTA#Synchronization2026년 1월 15일댓글 수 로딩 중
[triton] AMD: padded shared layout을 더 작은 block size에도 적용하여 bank conflict 제거16KB 미만의 작은 블록에서도 LDS padding을 활용한 bank conflict 프리 레이아웃을 지원하도록 개선한 변경 분석.#Triton#AMD#GPU#LDS#Bank Conflict#Shared Memory2026년 1월 13일댓글 수 로딩 중
[triton] AMD ReorderInstructions에서 no-op sinkDotConversion 최적화 제거ConvertLayout이 이미 local_load로 대체된 후 실행되어 효과가 없는 sinkDotConversion 최적화를 제거하여 코드 복잡성을 줄인 PR을 분석합니다.#Triton#AMD#Refactoring#Dead Code#MLIR2026년 1월 9일댓글 수 로딩 중
[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다#Triton#AMD#Gluon#L2 Cache#Prefetch#GPU Optimization2026년 1월 8일댓글 수 로딩 중
[Triton] AMD TDM L2 Prefetch 백엔드 지원 추가AMD GPU의 TDM L2 프리페치 하드웨어 기능에 대한 MLIR op 정의와 LLVM lowering을 구현한다#Triton#AMD#L2 Cache#Prefetch#MLIR#LLVM Lowering2025년 12월 31일댓글 수 로딩 중
[triton] AMD ReorderInstructions에서 효과 없는 sinkSecondLoad 최적화 제거제한적 케이스에서만 트리거되고 성능 영향이 없는 sinkSecondLoad 최적화를 제거하여 ReorderInstructions를 단순화한 PR을 분석합니다.#Triton#AMD#Refactoring#Dead Code#Cleanup2025년 12월 30일댓글 수 로딩 중
[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.#Triton#AMD#WMMA#LinearLayout#GPU Layout#gfx12502025년 12월 29일댓글 수 로딩 중
[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지#Triton#AMD#Bug Fix#Atomic Operations#LLVM2025년 12월 27일댓글 수 로딩 중
[Triton] AMD gfx950/gfx1250에 AsyncCopy 기본 활성화 — 파이프라인 성능 향상gfx950과 gfx1250 아키텍처에서 비동기 복사를 기본값으로 활성화하여 메모리 파이프라인 효율을 높인다#Triton#AMD#AsyncCopy#GPU Pipeline#Performance2025년 12월 23일댓글 수 로딩 중
[Triton] AMD RDNA에서 matmul_ogs 설정 최적화 — 최대 46% 성능 향상RDNA3/4 GPU에서 block_m/block_n/block_k 설정을 조정하여 레지스터 스필링 해결#Triton#AMD#RDNA#Performance#Kernel Tuning2025년 12월 22일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 19일댓글 수 로딩 중
[Triton] AMD scf.if else 분기 누락 버그 수정 — deduceMinCountBetweeOpsscf.if에 else 영역이 없을 때 async wait count가 잘못 계산되는 버그 수정#Triton#AMD#MLIR#Bug Fix#Compiler2025년 12월 18일댓글 수 로딩 중
[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 18일댓글 수 로딩 중
[Triton] gfx1250에 async_copy_local_to_global 추가Gluon에서 GFX1250의 shared-to-global 비동기 복사를 지원하는 Op 정의, lowering, 테스트 추가#Triton#AMD#gfx1250#Gluon#Async Copy2025년 12월 16일댓글 수 로딩 중
[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.#Triton#AMD#GPU#Optimization#FlashAttention2025년 12월 15일댓글 수 로딩 중
[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.#Triton#AMD#Warp Pipeline#Gluon#LLVM#GPU Optimization2025년 12월 11일댓글 수 로딩 중
[Triton] AMD TDM 연산에 multi-CTA 및 multicast 지원 추가CGALayout 기반으로 TDM load/store에 멀티캐스트 마스크를 자동 설정하여 cluster 간 데이터 공유 가능#Triton#AMD#TDM#Multi-CTA#Multicast2025년 11월 24일댓글 수 로딩 중
[triton] AMD GPU에서 Block Scaled Matmul 지원 추가Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.#Triton#AMD#CDNA4#MatMul#MXFP#GPU2025년 11월 19일댓글 수 로딩 중
[Triton] AMD CI에 pip 캐시 디렉토리 도입 — 네트워크 장애 대응AMD GPU CI 환경에서 pip 캐시 디렉토리를 사용하여 네트워크 지연에 의한 빌드 실패를 방지한다#Triton#AMD#CI/CD#GitHub Actions#DevOps2025년 11월 19일댓글 수 로딩 중
[Triton] AMD gfx1250 tt.LoadOp에 multicast 지원 추가cluster_load를 사용하여 여러 CTA에 동시 레지스터 로드를 수행하는 multicast 기능 구현#Triton#AMD#gfx1250#Multicast#Load2025년 11월 18일댓글 수 로딩 중
[Triton] gfx1250에서 async_copy multicast 지원AMD gfx1250 타겟의 async_copy_global_to_local에 cluster load 기반 multicast를 추가하여 CTA간 데이터 공유 지원#Triton#AMD#Multicast#Async Copy#gfx12502025년 11월 16일댓글 수 로딩 중
[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.#Triton#AMD#LLVM#Scheduler#Flash Attention#Performance2025년 11월 14일댓글 수 로딩 중
[Triton] AMD gfx1250에 LDS 메모리 배리어 지원 추가gfx1250 아키텍처의 LDS memory barrier op을 구현하고 Gluon DSL에 노출한다#Triton#AMD#LDS#Memory Barrier#gfx1250#Gluon2025년 11월 11일댓글 수 로딩 중
[Triton] AMD에 MemoryCounterWaitOp과 ROCDL lowering 추가하드웨어 메모리 카운터 대기를 추상화하는 MemoryCounterWaitOp을 도입하여 아키텍처별 waitcnt 인코딩을 통합 관리#Triton#AMD#ROCDL#Synchronization#ISA2025년 11월 10일댓글 수 로딩 중
[triton] AMD/Gluon: gfx1250에서 async_copy 런타임 테스트 추가 및 UpdateAsyncWaitCnt 활성화AMD gfx1250 아키텍처에서 async_copy의 다양한 shared memory layout 조합에 대한 런타임 테스트를 추가하고 UpdateAsyncWaitCnt를 활성화한 분석.#Triton#AMD#Gluon#gfx1250#Async Copy#Testing2025년 11월 6일댓글 수 로딩 중
[Triton] AMD FAv3 pingpong에서 s_xxx 명령어 배치 최적화Memory cluster와 compute cluster 사이의 스칼라 명령어 배치를 개선하여 GPU 파이프라인 활용도를 높임#Triton#AMD#Scheduling#Performance#FlashAttention2025년 11월 3일댓글 수 로딩 중
[triton] AMD: BufferLoadToLocal을 UpdateAsyncWaitCount에 포함하여 성능 회귀 수정buffer_load_to_local 명령어를 비동기 대기 카운트 계산에 포함시켜 보수적 wait으로 인한 성능 저하를 해결한 분석.#Triton#AMD#Async#Buffer Operations#Performance2025년 11월 2일댓글 수 로딩 중
[Triton] AMD Gluon에서 async_wait을 commit group 기반으로 변경하드웨어 명령어 수 대신 commit group 수 기반으로 async_wait 의미론을 변경하여 Gluon 커널 작성 편의성 향상#Triton#AMD#Gluon#Async Wait#Compiler2025년 11월 1일댓글 수 로딩 중
[Triton] AMD amdgpu.async_wait Op 도입으로 비동기 트랜잭션 의미론 명확화ttg.async_wait의 commit group 기반 의미론과 분리하여 AMD 하드웨어 명령어 수 기반 async_wait을 별도 Op으로 정의#Triton#AMD#MLIR#Async Wait#IR Design2025년 10월 29일댓글 수 로딩 중
[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.#Triton#AMD#gfx1250#Async#LLVM#GPU Architecture2025년 10월 24일댓글 수 로딩 중
[Triton] gfx1250 Shared Memory 크기 정확하게 반환하기AMD gfx1250 타겟에서 TargetInfo가 올바른 shared memory 크기를 반환하도록 switch 문으로 리팩터링#Triton#AMD#GPU#Shared Memory2025년 10월 23일댓글 수 로딩 중
[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.#Triton#AMD#LDS#LinearLayout#SharedMemory#Optimization2025년 10월 16일댓글 수 로딩 중
[triton] AMD: range analysis 버그 수정 및 buffer-ops의 range analysis 의존성 강화tl.assume의 제어 흐름 관계 미고려, make_range 범위 오류 등 range analysis의 근본적 버그를 수정하고 buffer-ops가 올바른 범위 검증을 수행하도록 개선한 분석.#Triton#AMD#Range Analysis#Buffer Operations#Large Tensor#Bug Fix2025년 10월 12일댓글 수 로딩 중
[Triton] gfx1250에서 TDM Store 지원 추가AMD gfx1250 타겟에서 Tensor Data Mover를 통한 shared-to-global 비동기 store 연산 구현#Triton#AMD#gfx1250#TDM#Async2025년 10월 9일댓글 수 로딩 중
[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원AMD CDNA 아키텍처에서 padded shared memory 레이아웃을 AsyncCopy와 함께 사용할 수 있도록 파이프라인 lowering을 확장#Triton#AMD#AsyncCopy#Padding#Pipeline2025년 10월 7일댓글 수 로딩 중
[Triton] ds_read_tr + padded layout에서 vec size를 min interval로 제한padded shared memory 레이아웃에서 ds_read_tr의 벡터 크기가 padding 간격을 초과하지 않도록 수정#Triton#AMD#Shared Memory#Padding#Bug Fix2025년 10월 6일댓글 수 로딩 중