#AMD

101개의 포스트

[sglang] SGLang HiCache에 AMD UMBP 기반 L3 스토리지 백엔드 도입

AMD MI3xx 환경에서 HBM 부족 문제를 해결하기 위해 UMBP 기반의 계층형 DRAM/SSD 스토리지 백엔드를 HiCache에 통합하여 TTFT를 3.5배 개선했습니다.

#SGLang #HiCache #AMD #UMBP #KV-Cache #LLM-Serving

2026년 7월 1일

[sglang] SGLang: AMD GPU 환경에서의 DeepSeek-V4 성능 최적화 분석

AMD GPU 환경에서 MLA GEMM 및 RoPE 연산을 최적화하여 추론 성능을 최대 8.8% 향상시킨 사례 분석

#SGLang #AMD #DeepSeek-V4 #Triton #GEMM #RoPE

2026년 6월 20일

[sglang] AMD GPU 최적화: Triton 커널 퓨전을 통한 Qwen2 MoE 공유 전문가 게이팅 성능 향상

AMD GPU에서 Qwen2 MoE 모델의 공유 전문가 게이팅 연산을 Triton 커널로 융합하여 성능을 개선한 PR 분석

#AMD #Triton #Triton Kernel Fusion #Qwen2 MoE #Performance Optimization #SGLang

2026년 6월 16일

[triton] Triton AMD StreamK GEMM 커널의 Race Condition 해결: 동기화 로직 최적화 분석

AMD GPU 환경에서 StreamK GEMM 커널의 동기화 결함(Race Condition)을 해결하고 안정성을 확보한 코드 변경 사항을 분석합니다.

#Triton #AMD #GEMM #StreamK #GPU #Concurrency

2026년 6월 13일

[triton] [AMD Triton] LLVM InstCombine의 함정을 피하는 법: TDM 텐서 클램핑 최적화

LLVM의 InstCombine이 유발하는 불필요한 VALU 연산과 v_readfirstlane 오버헤드를 방지하기 위한 TDM 디스크립터 생성 로직 개선 사례를 살펴봅니다.

#Triton #AMD #LLVM #GPU #Optimization #Codegen

2026년 6월 8일

[sglang] AMD MI300에서의 GPT-OSS 120B 추론 성능 최적화: 새로운 KV 캐시 레이아웃과 커널 통합

AMD GPU에서 GPT-OSS 120B 모델의 추론 속도를 15% 이상 향상시키는 최적화 방안을 분석합니다.

#AMD #ROCm #SGLang #GPT-OSS #성능 최적화 #KV Cache #Attention Kernel

2026년 6월 8일

[sglang] [AMD/ROCm] Temporal Unfolding을 통한 VAE Conv3D 성능 최적화 분석

ROCm 환경에서 VAE의 CausalConv3d를 수학적으로 동일한 Batched Conv2D로 변환하여 3.6%의 성능 향상을 달성한 기법을 소개합니다.

#AMD #ROCm #Deep Learning #Optimization #SGLang #PyTorch

2026년 5월 8일

[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화

FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.

#AMD #ROCm #FP8 #MLA #SGLang #Optimization

2026년 5월 8일

[sglang] AMD ROCm 환경에서의 DeepSeek-V4 성능 최적화: Aiter MHC 커널 통합 분석

SGLang의 AMD 지원 강화: DeepSeek-V4 모델의 MHC 연산을 Aiter 전용 커널로 교체하여 추론 성능을 최적화했습니다.

#DeepSeek-V4 #AMD #ROCm #SGLang #Aiter #Performance Optimization

2026년 5월 4일

[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상

Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.

#Triton #AMD #GPU #Optimization #GEMM #HPC

2026년 4월 18일

[sglang] sglang, AMD MI35x 환경에서 GLM-5-MXFP4 모델의 성능 및 정확도 테스트 추가

sglang 레포지토리에서 AMD MI35x GPU 환경에 GLM-5-MXFP4 모델의 정확도 및 성능 테스트를 추가하고 기존 테스트를 정리하는 PR을 분석합니다.

#sglang #AMD #MI35x #GLM-5-MXFP4 #CI #테스트 자동화 #성능 최적화

2026년 4월 15일

[sglang] [AMD] Triton 커널 퓨전을 통한 Qwen3.5 MoE 라우팅 최적화 분석

4개의 커널 호출을 단일 Triton 커널로 통합하여 Qwen3.5 MoE 모델의 서빙 성능을 최대 4.16% 향상시킨 최적화 기법을 살펴봅니다.

#Triton #MoE #Qwen3.5 #Kernel-Fusion #SGLang #AMD

2026년 4월 15일

[sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략

GLM-5 모델의 AMD GPU 성능을 극대화하기 위한 Aiter 백엔드 텐서 패딩 및 커널 파라미터 최적화 분석.

#SGLang #LLM #AMD #ROCm #PerformanceOptimization

2026년 4월 12일

[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선

AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.

#SGLang #AMD #ROCm #AllReduce #Optimization #LLM

2026년 4월 12일

[sglang] SGLang의 AMD GPU 최적화: RMSNorm과 FP8 Per-token Quantization 커널 융합

RMSNorm과 FP8 per-token quantization을 단일 커널로 융합하여 메모리 접근을 최적화하고 GLM-4.7-FP8 모델의 추론 성능을 개선했습니다.

#SGLang #AMD #ROCm #FP8 #KernelFusion #LLM

2026년 4월 11일

[sglang] SGLang의 AMD GPU 성능 최적화: Aiter CK 커널을 활용한 LayerNorm 오버헤드 제거

AMD GPU 환경에서 LayerNorm의 불필요한 커널 호출을 줄여 성능을 개선한 최적화 사례를 분석합니다.

#SGLang #AMD #ROCm #Performance Optimization #LayerNorm

2026년 4월 9일

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

AMD MI30x/MI35x 환경에서 GLM-5-FP8 모델의 성능을 검증하기 위한 나이트리 벤치마크 파이프라인 구축 및 설정 최적화.

#SGLang #AMD #ROCm #FP8 #LLM #CI/CD

2026년 4월 8일

[sglang] sglang, Qwen3.5-397B FP8 모델 성능 벤치마크 추가 및 CI 개선

sglang 레포지토리에서 Qwen3.5-397B FP8 모델의 AMD GPU 성능 벤치마크를 추가하고 CI 워크플로우를 개선한 PR을 분석합니다.

#sglang #performance #CI #AMD #Qwen3.5 #FP8 #benchmarking

2026년 4월 7일

[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화

Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.

#Triton #AMD #Compiler #Bug Fix #MLIR

2026년 4월 1일

[Triton] AMD gfx1250 Tensor Descriptor 기반 GEMM 테스트 추가

AMD GFX1250에서 Tensor Descriptor Mode를 활용한 FP16, MXFP GEMM 및 Fused Attention 테스트 커버리지 확보

#Triton #AMD #gfx1250 #GEMM #Tensor Descriptor #Testing

2026년 3월 31일

[sglang] AMD에서 MoE Gate router gemm을 tgemm.mm으로 교체

DeepSeek-V2의 MoE gate router에서 수동 GEMM 분기를 aiter의 tgemm.mm 자동 디스패처로 교체하여 성능 회귀 해결

#SGLang #AMD #ROCm #MoE #GEMM

2026년 3월 31일

[triton] AMD TDM의 Partition-Aware 분할 및 다중 Intrinsic 지원

PartitionedSharedEncoding에서 TDM warp 배분을 파티션 경계에 맞추고, 다중 TDM 명령어 생성 및 wait count 계산을 올바르게 처리하도록 개선한 사례를 분석합니다.

#Triton #AMD #GPU #TDM #WarpDistribution

2026년 3월 28일

[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정

스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.

#Triton #AMD #GPU #SharedMemory #AsyncCopy

2026년 3월 27일

[triton] AMD Async Wait Count에서 Warp Free Variable 및 Register Zero Base 버그 수정

비정규 warp가 async copy를 건너뛰는 경우와 register zero base가 명령어 수를 부풀리는 문제를 수정한 사례를 분석합니다.

#Triton #AMD #GPU #AsyncCopy #WarpSpecialization

2026년 3월 26일

[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용

SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.

#SGLang #AMD #ROCm #Bug Fix #Lazy Import #Linear Attention

2026년 3월 25일

[triton] AMD 백엔드에 Concurrency Sanitizer(ConSan) 지원 추가

AMD GPU에서 GPU 동시성 버그를 감지하는 ConSan을 지원하기 위해 MBarrierOpInterface, 타겟 훅, 캡처 카운트 추정 등을 구현한 사례를 분석합니다.

#Triton #AMD #GPU #ConSan #Sanitizer #Concurrency

2026년 3월 26일

[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상

Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.

#Triton #AMD #GPU #Optimization #GEMM

2026년 3월 25일

[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩

LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.

#Triton #AMD #WMMA #Gluon #Optimization

2026년 3월 25일

[triton] AMD MXFP FA 예제에서 TDM Store 도입으로 Output 저장 최적화

buffer_store 기반의 수동 레이아웃 관리를 TDM store로 대체하여 코드를 단순화하고 메모리 접근 효율을 높인 사례를 분석합니다.

#Triton #AMD #GPU #TDM #FlashAttention

2026년 3월 23일

[Triton] AMD RDNA3에서 buffer cache modifier LLVM IR 전파

RDNA3 타겟에서 .cg/.cs/.cv/.wt cache modifier가 무시되던 문제를 수정하여 non-temporal 메모리 접근 지원

#Triton #AMD #RDNA3 #Cache Optimization #LLVM IR

2026년 3월 21일

[triton] GFX1250에서 AsyncCopy의 OOB Shared Memory 주소를 이용한 마스킹

브랜치 기반 마스킹 대신 out-of-range LDS 주소를 활용하여 async copy를 효율적으로 마스킹하는 GFX1250 최적화를 분석합니다.

#Triton #AMD #GPU #AsyncCopy #GFX1250

2026년 3월 18일

[triton] AMD gfx1250에서 Async Copy와 TDM 경로의 Padded Layout 휴리스틱 통합

AMD gfx1250 GPU의 async copy와 TDM 로드 경로에서 사용되는 padded shared memory layout 선택 휴리스틱을 통합한 PR 분석.

#Triton #AMD #gfx1250 #SharedMemory #Padding #BankConflict

2026년 3월 17일

[triton] AMD GFX1250에서 Buffer Atomic 연산 활성화

GFX1250 아키텍처에서 buffer atomic RMW/CAS 지원을 추가하고, SCOPE_DEV cache policy와 packed bf16 fadd를 구현한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #Atomics

2026년 3월 16일

[triton] AMD AtomicCAS의 Tensor Operand Thread Predicate 수정

AMD 백엔드에서 tensor 기반 atomic CAS 연산의 thread predicate를 올바르게 적용하여 redundant thread의 잘못된 atomic 실행을 방지한 사례를 분석합니다.

#Triton #AMD #GPU #Atomics #BugFix

2026년 3월 14일

[triton] AMD Pipelined Loop에서 TDM Load의 Buffer Race 수정

AMD GPU의 pipelined loop에서 TDM load 사용 시 버퍼 수가 부족하여 발생하는 데이터 경쟁 버그를 수정한 PR 분석.

#Triton #AMD #TDM #Pipeline #BufferRace #BugFix

2026년 3월 14일

[triton] AMD GFX1250 MXFP Flash Attention 예제 커널 대규모 리팩터링

preshuffle 로직 제거, TDM store 도입, expand_dims 전환 등 GFX1250 FA 예제를 단순화하고 성능을 개선한 리팩터링을 분석합니다.

#Triton #AMD #GPU #FlashAttention #GFX1250 #Refactoring

2026년 3월 12일

[triton] AMD GFX9 AsyncCopy를 위한 Padded Layout 선택 확장

AMD CDNA4(GFX9) GPU에서 async copy의 padded layout 선택을 8비트 데이터 타입과 더 넓은 kWidth로 확장하여 bank conflict를 줄인 PR 분석.

#Triton #AMD #CDNA4 #AsyncCopy #PaddedLayout #BankConflict

2026년 3월 9일

[triton] AMD FpSan dot 에뮬레이션의 MFMA/WMMA encoding 호환성 수정

FP Sanitizer의 dot 에뮬레이션에서 MFMA/WMMA 인코딩 대신 최적화된 blocked layout을 사용하고 cross-warp barrier를 추가하여 정확성을 보장한 PR을 분석합니다.

#Triton #AMD #FpSan #Bug Fix #MFMA

2026년 3월 6일

[triton] AMD Software Warp Pipeline에서 크래시 수정

AMD GPU의 ConvertWarpPipeline pass에서 AsyncWaitOp을 barrier로 인식하지 못해 발생하던 크래시를 수정하고 barrier 정렬 로직을 개선한 PR 분석.

#Triton #AMD #WarpPipeline #AsyncWait #BugFix #SWP

2026년 3월 3일

[triton] AMD BlockPingpong 패스의 non-MFMA dot 크래시 수정

AMD BlockPingpong 최적화가 FMA 기반 dot 연산에 적용되어 발생하던 크래시를 안전한 타입 캐스팅으로 수정한 PR을 분석합니다.

#Triton #AMD #Bug Fix #Pingpong #MFMA

2026년 3월 3일

[triton] AMD ConvertWarpPipeline에서 AsyncWaitOp 인식 및 Barrier 정렬 수정

AMD GPU의 warp pipeline 변환에서 AsyncWaitOp을 barrier로 인식하고 bars 배열 정렬 버그를 수정한 PR 분석.

#Triton #AMD #WarpPipeline #AsyncWait #BugFix

2026년 2월 27일

[triton] AMD Batched WMMA Scaled에서 스케일 레이아웃 수정

AMD gfx1250 GPU의 batched WMMA scaled 연산에서 스케일 텐서의 차원 순서 처리 버그를 수정하고 batched 테스트를 추가한 PR 분석.

#Triton #AMD #WMMA #Scale #BatchedMatMul #BugFix

2026년 2월 23일

[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트

AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.

#Triton #AMD #gfx1250 #FlashAttention #MXFP #Gluon

2026년 2월 20일

[triton] AMD TensorDescType의 Shared Memory 크기 계산 수정

WarpSpecialize capture에서 TensorDescType의 크기를 정확히 계산하도록 수정하여 shared memory 할당 오류를 방지한 사례를 분석합니다.

#Triton #AMD #GPU #WarpSpecialize #SharedMemory

2026년 2월 20일

[triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화

루프 내 버퍼 로드 시 오프셋 기반 주소 계산을 베이스 포인터 증분 방식으로 변경하여 연산 효율성을 개선했습니다.

#Triton #AMD #Compiler Optimization #MLIR #GPU

2026년 2월 20일

[triton] AMD TargetInfo에 16/32비트 Elementwise 벡터화 지원 추가

AMD GPU의 TargetInfo에 supportBitwidth16Elementwise와 supportBitwidth32Elementwise를 활성화하여 reduction 코드 생성을 최적화한 PR을 분석합니다.

#Triton #AMD #Vectorization #Reduction #GFX1250

2026년 2월 19일

[triton] AMD GFX950에서 Padded Layout Async Copy의 OOM 버그 수정

작은 타일 크기에서 padding interval이 contiguous 차원보다 큰 경우를 처리하여 pipelining 시 OOM을 방지한 사례를 분석합니다.

#Triton #AMD #GPU #GFX950 #Pipelining #BugFix

2026년 2월 18일

[triton] AMD 백엔드에서 Floating-Point Sanitizer(FPSan) 지원 활성화

AMD GPU(CDNA3/CDNA4/GFX1250)에서 FPSan을 지원하도록 테스트를 확장하고, warp size 차이에 따른 레이아웃 문제를 해결한 사례를 분석합니다.

#Triton #AMD #GPU #FPSan #Testing

2026년 2월 17일

[Triton] HIPBackend에서 import torch 가드 추가 — JAX 호환성 복원

torch 없는 환경(jax-triton)에서 AMD 백엔드 사용 시 ImportError 수정

#Triton #AMD #Python #Bug Fix #Compatibility

2026년 2월 17일

[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석

AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.

#Triton #AMD #GPU #Attention #Optimization

2026년 2월 10일

[triton] AMD: PartitionedSharedEncodingAttr의 LLVM lowering 지원으로 공유 메모리 파티셔닝 구현

텐서를 여러 물리적 공유 메모리 파티션에 분할 저장하여 파티션 충돌을 줄이는 PartitionedSharedEncodingAttr의 LLVM IR 변환 구현 분석.

#Triton #AMD #LLVM #Shared Memory #Partitioning #MLIR

2026년 2월 10일

[triton] AMD Async Load에 ROCDL Op 사용으로 전환

AMD GPU의 async load 연산에서 LLVM intrinsic 문자열 기반 호출을 타입 안전한 ROCDL op으로 교체한 NFC(Non-Functional Change) PR 분석.

#Triton #AMD #ROCDL #AsyncCopy #NFC #Refactoring

2026년 2월 9일

[triton] AMD GFX1250용 Warp-Pipeline f16 GEMM 예제 추가

AMD GFX1250 아키텍처에서 TDM과 warp pipeline을 활용한 f16 GEMM 커널 예제를 추가한 사례를 분석합니다.

#Triton #AMD #GPU #GFX1250 #GEMM #WarpPipeline

2026년 2월 5일

[Triton] AMD GFX9에서 AsyncCopy shared layout order 수정

getElementsPerThread 대신 getContigPerThread를 사용하고 vecSize를 하드웨어 지원 범위로 clamp하여 coalesced direct-to-LDS 쓰기 보장

#Triton #AMD #GFX9 #Async Copy #Bug Fix

2026년 2월 5일

[triton] AMD GFX1250을 위한 Triton Stream-K 커널 최적화: 4/8 Warp 구현

AMD GFX1250 아키텍처에서 Stream-K 커널의 성능을 극대화하기 위한 4/8 warp 병렬 처리 및 atomic lock 최적화 기법 분석.

#Triton #AMD #GFX1250 #Stream-K #GPU-Optimization

2026년 2월 4일

[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원

텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가

#Triton #AMD #MLIR #Shared Memory #Memory Optimization

2026년 2월 4일

[Triton] AMD TDM AsyncWait을 UpdateAsyncWaitCount에서 지원

TDM scatter/gather가 여러 intrinsic을 생성하는 경우의 정확한 waitcnt 계산 지원

#Triton #AMD #TDM #Async Wait #Compiler

2026년 2월 2일

[Triton] AMD PartitionedSharedEncodingAttr 도입 — shared memory 파티션 충돌 감소

텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict 감소

#Triton #AMD #MLIR #Shared Memory #Architecture

2026년 2월 2일

[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체

여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.

#Triton #AMD #Refactoring #Compiler #Pipeline

2026년 2월 1일

[triton] AMD gfx1250 Gluon에 Tensor Async Gather(TDM) 지원 추가

AMD gfx1250 GPU의 TDM gather 모드를 활용하여 비연속 global memory 행에서 비동기적으로 데이터를 읽는 기능을 Gluon에 추가한 PR 분석.

#Triton #AMD #gfx1250 #Gluon #TDM #Gather

2026년 2월 1일

[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화

AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법

#Triton #AMD #GPU #LLVM #Optimization

2026년 1월 30일

[triton] AMD gfx1250 Gluon에 Tensor Async Scatter 지원 추가

AMD gfx1250 GPU의 TDM scatter 모드를 활용하여 비연속 global memory 행에 비동기적으로 데이터를 쓰는 기능을 Gluon에 추가한 PR 분석.

#Triton #AMD #gfx1250 #Gluon #TDM #Scatter

2026년 1월 26일

[Triton] AMD PrepareIfCombining 패스 추가 — scf.if 병합 최적화

동일 조건의 인접 scf.if 연산 사이 명령어를 이동시켜 canonicalizer가 if를 병합하도록 지원

#Triton #AMD #MLIR #Compiler Optimization #Control Flow

2026년 1월 24일

[Triton] AMD TDM 기능 활성화 및 ConvertToTensorOps 패스 추가

TDM(Tensor Descriptor Memory) 관련 기능 활성화와 ConvertToTensorOps 변환 패스 추가

#Triton #AMD #TDM #Tensor Descriptor #Compiler Pass

2026년 1월 23일

[triton] moveUpTranspose 최적화 제거 PR의 Revert - 회귀 방지

일부 워크로드에서 성능 회귀를 유발한 moveUpTranspose 제거를 되돌려, TransposeOp 재배치 최적화를 복원한 PR을 분석합니다.

#Triton #AMD #Revert #Performance #Regression

2026년 1월 15일

[Triton] AMD fine-grained cluster barrier 추가 및 Gluon 노출

CTA 간 실행 동기화를 위한 cluster barrier arrive/wait 연산을 AMD 백엔드에 추가

#Triton #AMD #Gluon #Multi-CTA #Synchronization

2026년 1월 15일

[triton] AMD: padded shared layout을 더 작은 block size에도 적용하여 bank conflict 제거

16KB 미만의 작은 블록에서도 LDS padding을 활용한 bank conflict 프리 레이아웃을 지원하도록 개선한 변경 분석.

#Triton #AMD #GPU #LDS #Bank Conflict #Shared Memory

2026년 1월 13일

[triton] AMD ReorderInstructions에서 no-op sinkDotConversion 최적화 제거

ConvertLayout이 이미 local_load로 대체된 후 실행되어 효과가 없는 sinkDotConversion 최적화를 제거하여 코드 복잡성을 줄인 PR을 분석합니다.

#Triton #AMD #Refactoring #Dead Code #MLIR

2026년 1월 9일

[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어

AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다

#Triton #AMD #Gluon #L2 Cache #Prefetch #GPU Optimization

2026년 1월 8일

[Triton] AMD TDM L2 Prefetch 백엔드 지원 추가

AMD GPU의 TDM L2 프리페치 하드웨어 기능에 대한 MLIR op 정의와 LLVM lowering을 구현한다

#Triton #AMD #L2 Cache #Prefetch #MLIR #LLVM Lowering

2025년 12월 31일

[triton] AMD ReorderInstructions에서 효과 없는 sinkSecondLoad 최적화 제거

제한적 케이스에서만 트리거되고 성능 영향이 없는 sinkSecondLoad 최적화를 제거하여 ReorderInstructions를 단순화한 PR을 분석합니다.

#Triton #AMD #Refactoring #Dead Code #Cleanup

2025년 12월 30일

[triton] AMD: WMMA layout의 CTA 필드를 LinearLayout으로 일반화하여 swizzled warp 레이아웃 지원

warpsPerCTA/tilesPerWarp 파라미터를 LinearLayout 기반 ctaLayout으로 대체하여 gfx1250의 swizzled warp 레이아웃 등 더 복잡한 배치를 표현할 수 있도록 개선한 분석.

#Triton #AMD #WMMA #LinearLayout #GPU Layout #gfx1250

2025년 12월 29일

[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정

float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지

#Triton #AMD #Bug Fix #Atomic Operations #LLVM

2025년 12월 27일

[Triton] AMD gfx950/gfx1250에 AsyncCopy 기본 활성화 — 파이프라인 성능 향상

gfx950과 gfx1250 아키텍처에서 비동기 복사를 기본값으로 활성화하여 메모리 파이프라인 효율을 높인다

#Triton #AMD #AsyncCopy #GPU Pipeline #Performance

2025년 12월 23일

[Triton] AMD RDNA에서 matmul_ogs 설정 최적화 — 최대 46% 성능 향상

RDNA3/4 GPU에서 block_m/block_n/block_k 설정을 조정하여 레지스터 스필링 해결

#Triton #AMD #RDNA #Performance #Kernel Tuning

2025년 12월 22일

[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상

AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 19일

[Triton] AMD scf.if else 분기 누락 버그 수정 — deduceMinCountBetweeOps

scf.if에 else 영역이 없을 때 async wait count가 잘못 계산되는 버그 수정

#Triton #AMD #MLIR #Bug Fix #Compiler

2025년 12월 18일

[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석

Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 18일

[Triton] gfx1250에 async_copy_local_to_global 추가

Gluon에서 GFX1250의 shared-to-global 비동기 복사를 지원하는 Op 정의, lowering, 테스트 추가

#Triton #AMD #gfx1250 #Gluon #Async Copy

2025년 12월 16일

[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상

Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.

#Triton #AMD #GPU #Optimization #FlashAttention

2025년 12월 15일

[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지

AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.

#Triton #AMD #Warp Pipeline #Gluon #LLVM #GPU Optimization

2025년 12월 11일

[Triton] AMD TDM 연산에 multi-CTA 및 multicast 지원 추가

CGALayout 기반으로 TDM load/store에 멀티캐스트 마스크를 자동 설정하여 cluster 간 데이터 공유 가능

#Triton #AMD #TDM #Multi-CTA #Multicast

2025년 11월 24일

[Triton] AMD CI에 pip 캐시 디렉토리 도입 — 네트워크 장애 대응

AMD GPU CI 환경에서 pip 캐시 디렉토리를 사용하여 네트워크 지연에 의한 빌드 실패를 방지한다

#Triton #AMD #CI/CD #GitHub Actions #DevOps

2025년 11월 19일

[triton] AMD GPU에서 Block Scaled Matmul 지원 추가

Triton의 block scaled matrix multiplication 튜토리얼에 AMD CDNA4 GPU 지원을 추가하고, 스케일 프리셔플링 로직을 문서화한 PR 분석.

#Triton #AMD #CDNA4 #MatMul #MXFP #GPU

2025년 11월 19일

[Triton] AMD gfx1250 tt.LoadOp에 multicast 지원 추가

cluster_load를 사용하여 여러 CTA에 동시 레지스터 로드를 수행하는 multicast 기능 구현

#Triton #AMD #gfx1250 #Multicast #Load

2025년 11월 18일

[Triton] gfx1250에서 async_copy multicast 지원

AMD gfx1250 타겟의 async_copy_global_to_local에 cluster load 기반 multicast를 추가하여 CTA간 데이터 공유 지원

#Triton #AMD #Multicast #Async Copy #gfx1250

2025년 11월 16일

[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화

AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.

#Triton #AMD #LLVM #Scheduler #Flash Attention #Performance

2025년 11월 14일

[Triton] AMD gfx1250에 LDS 메모리 배리어 지원 추가

gfx1250 아키텍처의 LDS memory barrier op을 구현하고 Gluon DSL에 노출한다

#Triton #AMD #LDS #Memory Barrier #gfx1250 #Gluon

2025년 11월 11일

[Triton] AMD에 MemoryCounterWaitOp과 ROCDL lowering 추가

하드웨어 메모리 카운터 대기를 추상화하는 MemoryCounterWaitOp을 도입하여 아키텍처별 waitcnt 인코딩을 통합 관리

#Triton #AMD #ROCDL #Synchronization #ISA

2025년 11월 10일

[triton] AMD/Gluon: gfx1250에서 async_copy 런타임 테스트 추가 및 UpdateAsyncWaitCnt 활성화

AMD gfx1250 아키텍처에서 async_copy의 다양한 shared memory layout 조합에 대한 런타임 테스트를 추가하고 UpdateAsyncWaitCnt를 활성화한 분석.

#Triton #AMD #Gluon #gfx1250 #Async Copy #Testing

2025년 11월 6일

[Triton] AMD FAv3 pingpong에서 s_xxx 명령어 배치 최적화

Memory cluster와 compute cluster 사이의 스칼라 명령어 배치를 개선하여 GPU 파이프라인 활용도를 높임

#Triton #AMD #Scheduling #Performance #FlashAttention

2025년 11월 3일

[triton] AMD: BufferLoadToLocal을 UpdateAsyncWaitCount에 포함하여 성능 회귀 수정

buffer_load_to_local 명령어를 비동기 대기 카운트 계산에 포함시켜 보수적 wait으로 인한 성능 저하를 해결한 분석.

#Triton #AMD #Async #Buffer Operations #Performance

2025년 11월 2일

[Triton] AMD Gluon에서 async_wait을 commit group 기반으로 변경

하드웨어 명령어 수 대신 commit group 수 기반으로 async_wait 의미론을 변경하여 Gluon 커널 작성 편의성 향상

#Triton #AMD #Gluon #Async Wait #Compiler

2025년 11월 1일

[Triton] AMD amdgpu.async_wait Op 도입으로 비동기 트랜잭션 의미론 명확화

ttg.async_wait의 commit group 기반 의미론과 분리하여 AMD 하드웨어 명령어 수 기반 async_wait을 별도 Op으로 정의

#Triton #AMD #MLIR #Async Wait #IR Design

2025년 10월 29일

[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현

AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.

#Triton #AMD #gfx1250 #Async #LLVM #GPU Architecture

2025년 10월 24일

[Triton] gfx1250 Shared Memory 크기 정확하게 반환하기

AMD gfx1250 타겟에서 TargetInfo가 올바른 shared memory 크기를 반환하도록 switch 문으로 리팩터링

#Triton #AMD #GPU #Shared Memory

2025년 10월 23일

[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원

AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.

#Triton #AMD #LDS #LinearLayout #SharedMemory #Optimization

2025년 10월 16일

[triton] AMD: range analysis 버그 수정 및 buffer-ops의 range analysis 의존성 강화

tl.assume의 제어 흐름 관계 미고려, make_range 범위 오류 등 range analysis의 근본적 버그를 수정하고 buffer-ops가 올바른 범위 검증을 수행하도록 개선한 분석.

#Triton #AMD #Range Analysis #Buffer Operations #Large Tensor #Bug Fix

2025년 10월 12일

[Triton] gfx1250에서 TDM Store 지원 추가

AMD gfx1250 타겟에서 Tensor Data Mover를 통한 shared-to-global 비동기 store 연산 구현

#Triton #AMD #gfx1250 #TDM #Async

2025년 10월 9일

[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원

AMD CDNA 아키텍처에서 padded shared memory 레이아웃을 AsyncCopy와 함께 사용할 수 있도록 파이프라인 lowering을 확장

#Triton #AMD #AsyncCopy #Padding #Pipeline

2025년 10월 7일

[Triton] ds_read_tr + padded layout에서 vec size를 min interval로 제한

padded shared memory 레이아웃에서 ds_read_tr의 벡터 크기가 padding 간격을 초과하지 않도록 수정

#Triton #AMD #Shared Memory #Padding #Bug Fix

2025년 10월 6일