[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.#FlashInfer#Distributed Computing#CUDA#GEMM#Performance Optimization2026년 4월 24일댓글 수 로딩 중
[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.#Ray#Python#Performance#Operator Fusion#Distributed Computing2025년 12월 3일댓글 수 로딩 중