#Distributed Computing

3개의 포스트

[sglang] [HunyuanVideo] Sequence Parallelism 최적화: Text Token Sharding으로 성능 한계 돌파하기

HunyuanVideo 모델에서 텍스트 토큰을 분산 처리하여 중복 연산을 제거하고 추론 속도를 최대 5.7% 향상시킨 기법을 분석합니다.

#SGLang #HunyuanVideo #Sequence Parallelism #DeepSpeed Ulysses #Distributed Computing

2026년 6월 20일

[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석

FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.

#FlashInfer #Distributed Computing #CUDA #GEMM #Performance Optimization

2026년 4월 24일

[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거

Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.

#Ray #Python #Performance #Operator Fusion #Distributed Computing

2025년 12월 3일