[triton] MMAv2 dot에 Prefetch 재활성화 - 루프 프롤로그 분리 방식으로 재설계Triton의 MMAv2 dot 연산에 대한 prefetch 최적화를 루프 프롤로그 분리 방식으로 재설계하여 재활성화한 PR을 분석합니다.#Triton#NVIDIA#Prefetch#MMAv2#Pipeline2026년 3월 27일댓글 수 로딩 중
[triton] AMD Pipelined Loop에서 TDM Load의 Buffer Race 수정AMD GPU의 pipelined loop에서 TDM load 사용 시 버퍼 수가 부족하여 발생하는 데이터 경쟁 버그를 수정한 PR 분석.#Triton#AMD#TDM#Pipeline#BufferRace#BugFix2026년 3월 14일댓글 수 로딩 중
[Grafana Loki] 배치 처리를 파이프라인 래퍼로 분리하여 캐시 통합 준비실행기의 drain 로직에 섞여 있던 배치 처리를 독립 파이프라인으로 추출하여, 태스크 캐시 구현의 기반을 마련한 리팩터링 분석.#Grafana Loki#Go#Refactoring#Pipeline#Arrow2026년 3월 11일댓글 수 로딩 중
[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.#Triton#AMD#Refactoring#Compiler#Pipeline2026년 2월 1일댓글 수 로딩 중
[triton] AutoWS에서 TMA와 non-TMA 로드 혼합 시 self-latency 및 MMA 처리 수정Warp specialization에서 TMA와 일반 로드가 혼합될 때 MMA의 self-latency를 올바르게 설정하고 warp-specialized MMA를 lowerMMA에서 처리하도록 수정한 PR을 분석합니다.#Triton#NVIDIA#AutoWS#TMA#Pipeline2026년 1월 7일댓글 수 로딩 중
[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.#Triton#NVIDIA#WGMMA#Pipeline#Optimization2025년 12월 17일댓글 수 로딩 중
[triton] Warp Specialization: OptimizePartitionWarps와 SWP 순서 교환으로 어노테이션 보존OptimizePartitionWarps 패스가 local_load의 루프 어노테이션을 삭제하는 문제를 해결하기 위해 SWP(Software Warp Pipelining) 이후로 실행 순서를 변경한 분석.#Triton#Warp Specialization#Compiler Pass#MLIR#Pipeline2025년 10월 14일댓글 수 로딩 중
[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원AMD CDNA 아키텍처에서 padded shared memory 레이아웃을 AsyncCopy와 함께 사용할 수 있도록 파이프라인 lowering을 확장#Triton#AMD#AsyncCopy#Padding#Pipeline2025년 10월 7일댓글 수 로딩 중