[triton] AMD: BufferLoadToLocal을 UpdateAsyncWaitCount에 포함하여 성능 회귀 수정buffer_load_to_local 명령어를 비동기 대기 카운트 계산에 포함시켜 보수적 wait으로 인한 성능 저하를 해결한 분석.#Triton#AMD#Async#Buffer Operations#Performance2025년 11월 2일댓글 수 로딩 중
[triton] AMD: range analysis 버그 수정 및 buffer-ops의 range analysis 의존성 강화tl.assume의 제어 흐름 관계 미고려, make_range 범위 오류 등 range analysis의 근본적 버그를 수정하고 buffer-ops가 올바른 범위 검증을 수행하도록 개선한 분석.#Triton#AMD#Range Analysis#Buffer Operations#Large Tensor#Bug Fix2025년 10월 12일댓글 수 로딩 중