#LLVM

15개의 포스트

[triton] [AMD Triton] LLVM InstCombine의 함정을 피하는 법: TDM 텐서 클램핑 최적화

LLVM의 InstCombine이 유발하는 불필요한 VALU 연산과 v_readfirstlane 오버헤드를 방지하기 위한 TDM 디스크립터 생성 로직 개선 사례를 살펴봅니다.

#Triton #AMD #LLVM #GPU #Optimization #Codegen

2026년 6월 8일

[triton] AMD GPU에서 불필요한 워프 로드를 제거하여 성능을 최적화한 Triton PR 분석

AMD GPU 아키텍처에서 불필요한 데이터 로드를 방지하여 VGPR 사용량을 최대 35% 줄이는 최적화 기법을 분석합니다.

#Triton #AMD GPU #Optimization #LLVM #Compiler

2026년 5월 19일

[triton] Fork된 서브프로세스에서 간헐적 SIGABRT 충돌 수정

LLVM의 내부 병렬 처리가 fork-safe하지 않아 발생하는 간헐적 SIGABRT를 LLVM 스레드 풀 비활성화로 해결한 PR 분석.

#Triton #LLVM #Fork #SIGABRT #Threading #BugFix

2026년 3월 16일

[triton] AMD GFX1250 MachineSink 이슈 우회를 위한 fence 추가

LLVM의 MachineSink 최적화가 LDS load를 barrier 너머로 이동시키는 버그를 우회하기 위해, AMD GFX1250 타겟에 compiler fence를 삽입한 PR을 분석합니다.

#Triton #AMD GPU #LLVM #Compiler Bug #Workaround

2026년 3월 3일

[triton] AMD: PartitionedSharedEncodingAttr의 LLVM lowering 지원으로 공유 메모리 파티셔닝 구현

텐서를 여러 물리적 공유 메모리 파티션에 분할 저장하여 파티션 충돌을 줄이는 PartitionedSharedEncodingAttr의 LLVM IR 변환 구현 분석.

#Triton #AMD #LLVM #Shared Memory #Partitioning #MLIR

2026년 2월 10일

[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입

Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.

#Triton #Compiler #Optimization #LLVM #GPU

2026년 2월 6일

[Triton] TMA im2col 모드 — LLVM Lowering 구현

TMA im2col 시리즈의 다섯 번째 PR로, im2col descriptor 생성과 TMA 복사의 LLVM IR lowering을 구현한다

#Triton #NVIDIA #TMA #im2col #LLVM #Compiler

2026년 2월 6일

[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화

AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법

#Triton #AMD #GPU #LLVM #Optimization

2026년 1월 30일

[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선

Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.

#Triton #Compiler #Optimization #LLVM #Performance

2026년 1월 20일

[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정

float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지

#Triton #AMD #Bug Fix #Atomic Operations #LLVM

2025년 12월 27일

[Triton] LLVM Debug Information에서 커널 인자 누락 수정

Triton FuncOp에서 LLVM IR 변환 시 포인터 타입의 pointee 정보가 유실되어 디버그 정보에 커널 인자가 누락되는 버그를 수정

#Triton #LLVM #Debug Info #Bug Fix

2025년 12월 25일

[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지

AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.

#Triton #AMD #Warp Pipeline #Gluon #LLVM #GPU Optimization

2025년 12월 11일

[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화

AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.

#Triton #AMD #LLVM #Scheduler #Flash Attention #Performance

2025년 11월 14일

[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현

AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.

#Triton #AMD #gfx1250 #Async #LLVM #GPU Architecture

2025년 10월 24일

[triton] tcgen05.cp를 Generic Matrix Descriptor Lowering으로 통합

Triton NVIDIA 백엔드에서 tcgen05.cp 명령어의 SMEM 디스크립터 로딩을 generic matrix descriptor lowering 경로로 통합하여 코드 중복을 줄인 PR 분석.

#Triton #NVIDIA #Blackwell #MatrixDescriptor #LLVM #Backend

2025년 10월 2일