[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가
PR 링크: sgl-project/sglang#21811 상태: Merged | 변경: +56 / -0
들어가며
SGLang은 Ascend NPU를 지원하며, Ring Sequence Parallelism(Ring-SP)은 긴 시퀀스를 여러 NPU에 분할하여 처리하는 기법이다. 이 PR은 Wan2.1-T2V-1.3B 모델을 사용한 Ring-SP 벤치마크 결과를 공식 문서에 추가한다.
핵심 코드 분석
벤치마크 결과 문서화
| Stage / Metric | `u1r2` (s) | `u1r1` baseline (s) | Speedup |
|---|---:|---:|---:|
| Denoising | 121.2788 | 239.2580 | 1.97x |
| Decoding | 13.8685 | 16.4969 | 1.19x |
| **Total** | **141.86** | **266.50** | **1.88x** |
u1r1(ulysses=1, ring=1 - 단일 NPU)과 u1r2(ulysses=1, ring=2 - 2개 NPU)를 비교한다. Denoising 단계에서 1.97배 속도 향상이 핵심이며, 전체적으로 1.88배 성능 개선을 보인다.
문서 트리 등록
# ascend_npu_support.rst
Ascend NPUs
ascend_npu_best_practice.md
+ ascend_npu_ring_sp_performance.md
ascend_npu_qwen3_5_examples.md
기존 Ascend NPU 문서 트리의 best practice 바로 다음에 위치시켜 사용자가 쉽게 찾을 수 있도록 배치했다.
왜 이게 좋은가
- 실측 데이터 제공: 이론적 speedup이 아닌 실제 측정된 stage별 소요 시간 제공
- 재현 가능: 정확한 명령어와 환경(torch_npu==2.10.0)을 명시하여 벤치마크 재현 가능
- NPU 생태계 확장: Ascend NPU에서의 SGLang 활용 사례를 공식 문서에 추가
정리
Diffusion 모델(Wan2.1-T2V-1.3B)에서 Ring-SP를 적용했을 때 2개 NPU로 1.88배 성능 향상을 달성한 벤치마크 결과를 문서화한 PR이다. Denoising 단계가 전체 시간의 대부분을 차지하며 여기서 거의 2배의 speedup을 얻는 것이 핵심이다.
참고 자료
- sgl-project/sglang#21811 — 원본 PR
⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.
관련 포스트
PR Analysis 의 다른글
- 이전글 [sglang] JIT RMSNorm 커널 업데이트 - Blackwell 최적화 및 벤치마크 통합
- 현재글 : [sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가
- 다음글 [sglang] HiRadixCache에서 TTL 기반 hard pin 기능 제거
댓글