[triton] Fork된 서브프로세스에서 간헐적 SIGABRT 충돌 수정LLVM의 내부 병렬 처리가 fork-safe하지 않아 발생하는 간헐적 SIGABRT를 LLVM 스레드 풀 비활성화로 해결한 PR 분석.#Triton#LLVM#Fork#SIGABRT#Threading#BugFix2026년 3월 16일댓글 수 로딩 중
[triton] AMD GFX1250 MachineSink 이슈 우회를 위한 fence 추가LLVM의 MachineSink 최적화가 LDS load를 barrier 너머로 이동시키는 버그를 우회하기 위해, AMD GFX1250 타겟에 compiler fence를 삽입한 PR을 분석합니다.#Triton#AMD GPU#LLVM#Compiler Bug#Workaround2026년 3월 3일댓글 수 로딩 중
[triton] AMD: PartitionedSharedEncodingAttr의 LLVM lowering 지원으로 공유 메모리 파티셔닝 구현텐서를 여러 물리적 공유 메모리 파티션에 분할 저장하여 파티션 충돌을 줄이는 PartitionedSharedEncodingAttr의 LLVM IR 변환 구현 분석.#Triton#AMD#LLVM#Shared Memory#Partitioning#MLIR2026년 2월 10일댓글 수 로딩 중
[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.#Triton#Compiler#Optimization#LLVM#GPU2026년 2월 6일댓글 수 로딩 중
[Triton] TMA im2col 모드 — LLVM Lowering 구현TMA im2col 시리즈의 다섯 번째 PR로, im2col descriptor 생성과 TMA 복사의 LLVM IR lowering을 구현한다#Triton#NVIDIA#TMA#im2col#LLVM#Compiler2026년 2월 6일댓글 수 로딩 중
[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법#Triton#AMD#GPU#LLVM#Optimization2026년 1월 30일댓글 수 로딩 중
[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.#Triton#Compiler#Optimization#LLVM#Performance2026년 1월 20일댓글 수 로딩 중
[Triton] AMD에서 non-integer 타입 atomic-cas 시 컴파일러 크래시 수정float 타입 atomic CAS를 integer bitcast로 감싸서 LLVM cmpxchg 명령어 생성 시 core dump 방지#Triton#AMD#Bug Fix#Atomic Operations#LLVM2025년 12월 27일댓글 수 로딩 중
[Triton] LLVM Debug Information에서 커널 인자 누락 수정Triton FuncOp에서 LLVM IR 변환 시 포인터 타입의 pointee 정보가 유실되어 디버그 정보에 커널 인자가 누락되는 버그를 수정#Triton#LLVM#Debug Info#Bug Fix2025년 12월 25일댓글 수 로딩 중
[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.#Triton#AMD#Warp Pipeline#Gluon#LLVM#GPU Optimization2025년 12월 11일댓글 수 로딩 중
[triton] AMD: LLVM 백엔드에 커스텀 스케줄러 옵션 추가로 메모리 바운드 커널 최적화AMD HIP 백엔드에 iterative-ilp 스케줄러를 선택할 수 있는 schedule_hint 옵션을 추가하여 메모리 바운드 Flash Attention 커널 성능을 개선한 분석.#Triton#AMD#LLVM#Scheduler#Flash Attention#Performance2025년 11월 14일댓글 수 로딩 중
[triton] AMD: gfx1250에서 ttg.async_wait lowering 및 asynccnt 기반 동기화 구현AMD gfx1250 아키텍처에서 async load가 별도 asynccnt 카운터를 사용하는 것을 반영하여 async_wait lowering과 UpdateAsyncWaitCnt를 구현한 분석.#Triton#AMD#gfx1250#Async#LLVM#GPU Architecture2025년 10월 24일댓글 수 로딩 중
[triton] tcgen05.cp를 Generic Matrix Descriptor Lowering으로 통합Triton NVIDIA 백엔드에서 tcgen05.cp 명령어의 SMEM 디스크립터 로딩을 generic matrix descriptor lowering 경로로 통합하여 코드 중복을 줄인 PR 분석.#Triton#NVIDIA#Blackwell#MatrixDescriptor#LLVM#Backend2025년 10월 2일댓글 수 로딩 중