[triton] AMD Canonicalize Pointers에서 arith.select의 비대칭 fat pointer 처리 강화Triton AMD 백엔드의 포인터 정규화 과정에서 한쪽만 base+offset 분리된 arith.select를 안전하게 처리하도록 수정한 PR을 분석합니다.#Triton#AMD#Compiler#Bug Fix#MLIR2026년 4월 1일댓글 수 로딩 중
[pytorch] Inductor: bf16/fp16에서 addmm unfuse를 방지하여 정밀도 손실 해결PyTorch Inductor의 pattern matcher에서 half precision addmm의 unfuse를 방지하여, 딥 모델에서 누적되는 truncation 에러를 차단한 버그 수정을 분석합니다.#PyTorch#Inductor#Precision#bf16#fp16#Pattern Matching#Compiler2026년 3월 11일댓글 수 로딩 중
[PyTorch] Inductor mixed-order reduction 최적화mix-order-reduction의 multi-stage를 기본 비활성화하여 shared memory 초과 문제를 방지한다#PyTorch#Inductor#Triton#Compiler2026년 3월 9일댓글 수 로딩 중
[triton] Triton NVIDIA GPU 백엔드: WarpGroupDotWaitOp 최적화 및 동기화 개선WarpGroupDotWaitOp에 warpGroupLocal 속성을 추가하여 불필요한 배리어 동기화를 제거하고 성능을 최적화했습니다.#Triton#NVIDIA#GPU#Optimization#Compiler2026년 2월 9일댓글 수 로딩 중
[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.#Triton#Compiler#Optimization#LLVM#GPU2026년 2월 6일댓글 수 로딩 중
[Triton] TMA im2col 모드 — LLVM Lowering 구현TMA im2col 시리즈의 다섯 번째 PR로, im2col descriptor 생성과 TMA 복사의 LLVM IR lowering을 구현한다#Triton#NVIDIA#TMA#im2col#LLVM#Compiler2026년 2월 6일댓글 수 로딩 중
[Triton] AMD TDM AsyncWait을 UpdateAsyncWaitCount에서 지원TDM scatter/gather가 여러 intrinsic을 생성하는 경우의 정확한 waitcnt 계산 지원#Triton#AMD#TDM#Async Wait#Compiler2026년 2월 2일댓글 수 로딩 중
[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.#Triton#AMD#Refactoring#Compiler#Pipeline2026년 2월 1일댓글 수 로딩 중
[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.#Triton#Compiler#Optimization#LLVM#Performance2026년 1월 20일댓글 수 로딩 중
[triton] Warp Specialization: 데이터 플로우 그래프 기반의 개선된 파티션 스케줄링 패스기존 파티션 스케줄링을 데이터 플로우 그래프와 incremental heuristic merging 기반으로 재작성하여 범용성을 높인 분석.#Triton#Warp Specialization#Partition Scheduling#Data Flow Graph#Compiler#MLIR2026년 1월 16일댓글 수 로딩 중
[Triton] WarpSpecializePartitionsOp에 명시적 캡처 전달 — IR 구조 정합성 개선WarpSpecializeOp의 explicit capture를 실제 소비하는 WarpSpecializePartitionsOp으로 이동하여 IR 구조를 정합적으로 만든다#Triton#MLIR#Warp Specialization#IR Design#Compiler2026년 1월 7일댓글 수 로딩 중
[triton] CGAEncodingAttr::getDefault를 get1CTALayout/get1DLayout로 분리하여 multi-CTA 지원1CTA 전용이던 getDefault 함수를 명확한 이름의 두 함수로 분리하고, multi-CTA 환경에서의 coalesce 유틸리티를 수정한 분석.#Triton#MLIR#CGA#Multi-CTA#Encoding#Compiler2025년 12월 18일댓글 수 로딩 중
[Triton] AMD scf.if else 분기 누락 버그 수정 — deduceMinCountBetweeOpsscf.if에 else 영역이 없을 때 async wait count가 잘못 계산되는 버그 수정#Triton#AMD#MLIR#Bug Fix#Compiler2025년 12월 18일댓글 수 로딩 중
[triton] tl.cat 연산을 permute+reshape+join으로 재구현하여 결정적(deterministic) 동작 보장Triton의 tl.cat 연산에서 CatOp을 제거하고 permute, reshape, join 조합으로 대체하여 결정적 결과를 보장하는 변경 분석.#Triton#Compiler#MLIR#Tensor Operations#Determinism2025년 11월 19일댓글 수 로딩 중
[Triton] Pipeliner에서 cp_async의 alignment 정보 손실 수정async_copy Op에 optional contiguity 정보를 추가하여 컴파일러 변환 후에도 정렬 정보 유지#Triton#Compiler#Pipeliner#Async Copy#Bug Fix2025년 11월 18일댓글 수 로딩 중
[Triton] JIT 함수를 커널에 안전하게 전달하는 테스트 추가JIT 함수(higher-order function)를 constexpr 인자로 커널에 전달하고 캐시 키가 올바르게 갱신되는지 검증#Triton#Compiler2025년 11월 18일댓글 수 로딩 중
[Triton] JIT specialization data 직렬화 tuple/constexpr 수정JSON 직렬화 시 tuple과 constexpr 값이 올바르게 round-trip되도록 수정#Triton#Compiler2025년 11월 12일댓글 수 로딩 중
[Triton] AMD LLVM 백엔드에 커스텀 스케줄러 옵션 추가schedule_hint로 memory-bound-attention 등의 LLVM 스케줄링 전략을 지정할 수 있도록 확장#Triton#Compiler2025년 11월 10일댓글 수 로딩 중
[triton] Triton PROTON: FinalizeOp 최적화를 통한 프로파일링 오버헤드 개선Triton PROTON의 FinalizeOp를 리팩토링하여 warp 단위 병렬 쓰기를 구현하고 프로파일링 오버헤드를 최대 2배 이상 개선했습니다.#Triton#GPU#Optimization#Compiler#Profiling2025년 11월 7일댓글 수 로딩 중
[Triton] gfx1250에 Gluon async_copy API 추가AMD gfx1250 타겟에서 Gluon 프론트엔드를 통한 async global-to-shared copy 지원#Triton#Compiler2025년 11월 3일댓글 수 로딩 중
[triton] rewrite-partition-dependencies를 insert-aref로 통합하여 Warp Specialization 파이프라인 간소화Triton Warp Specialization의 partition dependency 재작성 pass를 insert-aref pass에 통합하여 컴파일 파이프라인을 간소화한 PR 분석.#Triton#WarpSpecialization#MLIR#Compiler#Refactoring2025년 11월 3일댓글 수 로딩 중
[Triton] AMD Gluon에서 async_wait을 commit group 기반으로 변경하드웨어 명령어 수 대신 commit group 수 기반으로 async_wait 의미론을 변경하여 Gluon 커널 작성 편의성 향상#Triton#AMD#Gluon#Async Wait#Compiler2025년 11월 1일댓글 수 로딩 중
[Triton] Aggregate cache key 변경 RelandRevert 후 수정하여 다시 적용한 aggregate 멤버 cache key 포함 PR#Triton#Compiler2025년 10월 30일댓글 수 로딩 중
[Triton] Gluon에서 초기 multi-CTA 지원multi-CTA 레이아웃의 TMEM 로드스토어 인코딩 계산을 PlanCTA 패스와 함께 구현#Triton#Compiler2025년 10월 30일댓글 수 로딩 중
[Triton] vLLM 호환 CUDA Graph tracing for Expert ParallelismExpert Parallelism에서 symmetric memory pool 초기화와 CUDA Graph 호환성을 개선#Triton#Compiler2025년 10월 28일댓글 수 로딩 중
[Triton] Aggregate cache key 변경 일시 Revert기존 aggregate cache key 변경이 CI에서 문제를 일으켜 일시적으로 revert한 PR#Triton#Compiler2025년 10월 28일댓글 수 로딩 중
[triton] memdesc_index에서 alloc_shape 리셋으로 메모리 디스크립터 정합성 개선Triton 컴파일러의 MemDescIndexOp에서 alloc_shape을 리셋하여 서브뷰 생성 시 메모리 디스크립터 타입 불일치를 해결한 PR 분석.#Triton#Compiler#MLIR#MemoryDescriptor#Backend2025년 10월 27일댓글 수 로딩 중
[Triton] AxisInfo의 unrealized_conversion_cast 처리 강화rank 불일치 시 pessimistic state로 fallback하여 크래시를 방지#Triton#Compiler2025년 10월 22일댓글 수 로딩 중
[Triton] split_k에 m*n 제약 조건 추가matmul에서 split_k 사용 시 m*n 크기에 대한 제약을 검증하는 테스트와 로직 추가#Triton#Compiler2025년 10월 11일댓글 수 로딩 중
[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법Triton의 TMEM Store 연산에서 불필요한 레이아웃 변환을 제거하여 Flex Attention 성능 저하를 해결한 최적화 기법을 분석합니다.#Triton#Compiler#Optimization#MLIR#GPU2025년 10월 3일댓글 수 로딩 중