[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.#sglang#Custom AllReduce#Low Latency#Shared Memory2026년 4월 13일댓글 수 로딩 중