[triton] AutoWS에서 TMA와 non-TMA 로드 혼합 시 self-latency 및 MMA 처리 수정Warp specialization에서 TMA와 일반 로드가 혼합될 때 MMA의 self-latency를 올바르게 설정하고 warp-specialized MMA를 lowerMMA에서 처리하도록 수정한 PR을 분석합니다.#Triton#NVIDIA#AutoWS#TMA#Pipeline2026년 1월 7일댓글 수 로딩 중