[triton] MMAv2 dot에 Prefetch 재활성화 - 루프 프롤로그 분리 방식으로 재설계Triton의 MMAv2 dot 연산에 대한 prefetch 최적화를 루프 프롤로그 분리 방식으로 재설계하여 재활성화한 PR을 분석합니다.#Triton#NVIDIA#Prefetch#MMAv2#Pipeline2026년 3월 27일댓글 수 로딩 중
[Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어AMD GPU의 TDM L2 프리페치 기능을 Gluon DSL API로 노출하여 사용자가 커널에서 직접 프리페치를 제어할 수 있게 한다#Triton#AMD#Gluon#L2 Cache#Prefetch#GPU Optimization2026년 1월 8일댓글 수 로딩 중
[Triton] AMD TDM L2 Prefetch 백엔드 지원 추가AMD GPU의 TDM L2 프리페치 하드웨어 기능에 대한 MLIR op 정의와 LLVM lowering을 구현한다#Triton#AMD#L2 Cache#Prefetch#MLIR#LLVM Lowering2025년 12월 31일댓글 수 로딩 중
[Ray] iter_batches에서 프리페치 버퍼링을 올바르게 처리하여 지연시간 안정화iter_batches의 큐 깊이를 프리페치 수에 맞추고, 포맷 스레드풀 워커 수를 제한하여 배치 소비 지연시간의 변동을 줄인 최적화 분석.#Ray#Python#Performance#Prefetch#Latency#Data Pipeline2025년 11월 20일댓글 수 로딩 중