#Compiler

35개의 포스트

[triton] Triton: Blackwell 아키텍처를 위한 TMEM Load-Reduce 연산 퓨전 최적화

Blackwell sm103+ GPU에서 TMEM Load와 Row Reduction을 단일 PTX 명령어로 퓨전하여 성능을 개선했습니다.

#Triton #Blackwell #GPU #Optimization #Compiler

2026년 7월 7일

[triton] Triton Autotuner 최적화: Pruned Config가 하나일 때 불필요한 벤치마크 생략하기

Triton Autotuner에서 설정이 하나로 압축될 경우, 불필요한 벤치마킹 과정을 건너뛰어 성능을 개선한 사례를 분석합니다.

#Triton #Autotuner #Performance #Optimization #Compiler

2026년 6월 18일

[triton] AMD GPU에서 불필요한 워프 로드를 제거하여 성능을 최적화한 Triton PR 분석

AMD GPU 아키텍처에서 불필요한 데이터 로드를 방지하여 VGPR 사용량을 최대 35% 줄이는 최적화 기법을 분석합니다.

#Triton #AMD GPU #Optimization #LLVM #Compiler

2026년 5월 19일

[cpython] Python JIT Shim 빌드 프로세스 개선: 런타임 컴파일에서 빌드 타임 링크로

Python JIT shim을 런타임 컴파일에서 빌드 타임 링크로 전환하여 성능과 디버깅 편의성을 개선합니다.

#Python #JIT #Performance Optimization #Build System #CPython #Compiler

2026년 4월 23일

[cpython] CPython 최적화: _BINARY_OP_EXTEND를 통한 타입 정보 전파로 성능 향상

CPython의 Tier 2 옵티마이저에서 _BINARY_OP_EXTEND의 타입 정보 전파를 개선하여 성능을 35% 향상시켰습니다.

#Python #CPython #Optimization #JIT #Compiler

2026년 4월 6일

[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화

Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.

#Triton #AMD #Compiler #Bug Fix #MLIR

2026년 4월 1일

[pytorch] Inductor: bf16/fp16에서 addmm unfuse를 방지하여 정밀도 손실 해결

PyTorch Inductor의 pattern matcher에서 half precision addmm의 unfuse를 방지하여, 딥 모델에서 누적되는 truncation 에러를 차단한 버그 수정을 분석합니다.

#PyTorch #Inductor #Precision #bf16 #fp16 #Pattern Matching #Compiler

2026년 3월 11일

[PyTorch] Inductor mixed-order reduction 최적화

mix-order-reduction의 multi-stage를 기본 비활성화하여 shared memory 초과 문제를 방지한다

#PyTorch #Inductor #Triton #Compiler

2026년 3월 9일

[triton] Triton NVIDIA GPU 백엔드: WarpGroupDotWaitOp 최적화 및 동기화 개선

WarpGroupDotWaitOp에 warpGroupLocal 속성을 추가하여 불필요한 배리어 동기화를 제거하고 성능을 최적화했습니다.

#Triton #NVIDIA #GPU #Optimization #Compiler

2026년 2월 9일

[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입

Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.

#Triton #Compiler #Optimization #LLVM #GPU

2026년 2월 6일

[Triton] TMA im2col 모드 — LLVM Lowering 구현

TMA im2col 시리즈의 다섯 번째 PR로, im2col descriptor 생성과 TMA 복사의 LLVM IR lowering을 구현한다

#Triton #NVIDIA #TMA #im2col #LLVM #Compiler

2026년 2월 6일

[Triton] AMD TDM AsyncWait을 UpdateAsyncWaitCount에서 지원

TDM scatter/gather가 여러 intrinsic을 생성하는 경우의 정확한 waitcnt 계산 지원

#Triton #AMD #TDM #Async Wait #Compiler

2026년 2월 2일

[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체

여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.

#Triton #AMD #Refactoring #Compiler #Pipeline

2026년 2월 1일

[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선

Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.

#Triton #Compiler #Optimization #LLVM #Performance

2026년 1월 20일

[triton] Warp Specialization: 데이터 플로우 그래프 기반의 개선된 파티션 스케줄링 패스

기존 파티션 스케줄링을 데이터 플로우 그래프와 incremental heuristic merging 기반으로 재작성하여 범용성을 높인 분석.

#Triton #Warp Specialization #Partition Scheduling #Data Flow Graph #Compiler #MLIR

2026년 1월 16일

[Triton] WarpSpecializePartitionsOp에 명시적 캡처 전달 — IR 구조 정합성 개선

WarpSpecializeOp의 explicit capture를 실제 소비하는 WarpSpecializePartitionsOp으로 이동하여 IR 구조를 정합적으로 만든다

#Triton #MLIR #Warp Specialization #IR Design #Compiler

2026년 1월 7일

[triton] CGAEncodingAttr::getDefault를 get1CTALayout/get1DLayout로 분리하여 multi-CTA 지원

1CTA 전용이던 getDefault 함수를 명확한 이름의 두 함수로 분리하고, multi-CTA 환경에서의 coalesce 유틸리티를 수정한 분석.

#Triton #MLIR #CGA #Multi-CTA #Encoding #Compiler

2025년 12월 18일

[Triton] AMD scf.if else 분기 누락 버그 수정 — deduceMinCountBetweeOps

scf.if에 else 영역이 없을 때 async wait count가 잘못 계산되는 버그 수정

#Triton #AMD #MLIR #Bug Fix #Compiler

2025년 12월 18일

[triton] tl.cat 연산을 permute+reshape+join으로 재구현하여 결정적(deterministic) 동작 보장

Triton의 tl.cat 연산에서 CatOp을 제거하고 permute, reshape, join 조합으로 대체하여 결정적 결과를 보장하는 변경 분석.

#Triton #Compiler #MLIR #Tensor Operations #Determinism

2025년 11월 19일

[Triton] Pipeliner에서 cp_async의 alignment 정보 손실 수정

async_copy Op에 optional contiguity 정보를 추가하여 컴파일러 변환 후에도 정렬 정보 유지

#Triton #Compiler #Pipeliner #Async Copy #Bug Fix

2025년 11월 18일

[Triton] JIT 함수를 커널에 안전하게 전달하는 테스트 추가

JIT 함수(higher-order function)를 constexpr 인자로 커널에 전달하고 캐시 키가 올바르게 갱신되는지 검증

#Triton #Compiler

2025년 11월 18일

[Triton] JIT specialization data 직렬화 tuple/constexpr 수정

JSON 직렬화 시 tuple과 constexpr 값이 올바르게 round-trip되도록 수정

#Triton #Compiler

2025년 11월 12일

[Triton] AMD LLVM 백엔드에 커스텀 스케줄러 옵션 추가

schedule_hint로 memory-bound-attention 등의 LLVM 스케줄링 전략을 지정할 수 있도록 확장

#Triton #Compiler

2025년 11월 10일

[triton] Triton PROTON: FinalizeOp 최적화를 통한 프로파일링 오버헤드 개선

Triton PROTON의 FinalizeOp를 리팩토링하여 warp 단위 병렬 쓰기를 구현하고 프로파일링 오버헤드를 최대 2배 이상 개선했습니다.

#Triton #GPU #Optimization #Compiler #Profiling

2025년 11월 7일

[Triton] gfx1250에 Gluon async_copy API 추가

AMD gfx1250 타겟에서 Gluon 프론트엔드를 통한 async global-to-shared copy 지원

#Triton #Compiler

2025년 11월 3일

[triton] rewrite-partition-dependencies를 insert-aref로 통합하여 Warp Specialization 파이프라인 간소화

Triton Warp Specialization의 partition dependency 재작성 pass를 insert-aref pass에 통합하여 컴파일 파이프라인을 간소화한 PR 분석.

#Triton #WarpSpecialization #MLIR #Compiler #Refactoring

2025년 11월 3일

[Triton] AMD Gluon에서 async_wait을 commit group 기반으로 변경

하드웨어 명령어 수 대신 commit group 수 기반으로 async_wait 의미론을 변경하여 Gluon 커널 작성 편의성 향상

#Triton #AMD #Gluon #Async Wait #Compiler

2025년 11월 1일

[Triton] Aggregate cache key 변경 Reland

Revert 후 수정하여 다시 적용한 aggregate 멤버 cache key 포함 PR

#Triton #Compiler

2025년 10월 30일

[Triton] Gluon에서 초기 multi-CTA 지원

multi-CTA 레이아웃의 TMEM 로드스토어 인코딩 계산을 PlanCTA 패스와 함께 구현

#Triton #Compiler

2025년 10월 30일

[Triton] vLLM 호환 CUDA Graph tracing for Expert Parallelism

Expert Parallelism에서 symmetric memory pool 초기화와 CUDA Graph 호환성을 개선

#Triton #Compiler

2025년 10월 28일

[Triton] Aggregate cache key 변경 일시 Revert

기존 aggregate cache key 변경이 CI에서 문제를 일으켜 일시적으로 revert한 PR

#Triton #Compiler

2025년 10월 28일

[triton] memdesc_index에서 alloc_shape 리셋으로 메모리 디스크립터 정합성 개선

Triton 컴파일러의 MemDescIndexOp에서 alloc_shape을 리셋하여 서브뷰 생성 시 메모리 디스크립터 타입 불일치를 해결한 PR 분석.

#Triton #Compiler #MLIR #MemoryDescriptor #Backend

2025년 10월 27일

[Triton] AxisInfo의 unrealized_conversion_cast 처리 강화

rank 불일치 시 pessimistic state로 fallback하여 크래시를 방지

#Triton #Compiler

2025년 10월 22일

[Triton] split_k에 m*n 제약 조건 추가

matmul에서 split_k 사용 시 m*n 크기에 대한 제약을 검증하는 테스트와 로직 추가

#Triton #Compiler

2025년 10월 11일

[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법

Triton의 TMEM Store 연산에서 불필요한 레이아웃 변환을 제거하여 Flex Attention 성능 저하를 해결한 최적화 기법을 분석합니다.

#Triton #Compiler #Optimization #MLIR #GPU

2025년 10월 3일