본문으로 건너뛰기

[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가

PR 링크: sgl-project/sglang#21811 상태: Merged | 변경: +56 / -0

들어가며

SGLang은 Ascend NPU를 지원하며, Ring Sequence Parallelism(Ring-SP)은 긴 시퀀스를 여러 NPU에 분할하여 처리하는 기법이다. 이 PR은 Wan2.1-T2V-1.3B 모델을 사용한 Ring-SP 벤치마크 결과를 공식 문서에 추가한다.

핵심 코드 분석

벤치마크 결과 문서화

| Stage / Metric | `u1r2` (s) | `u1r1` baseline (s) | Speedup |
|---|---:|---:|---:|
| Denoising | 121.2788 | 239.2580 | 1.97x |
| Decoding | 13.8685 | 16.4969 | 1.19x |
| **Total** | **141.86** | **266.50** | **1.88x** |

u1r1(ulysses=1, ring=1 - 단일 NPU)과 u1r2(ulysses=1, ring=2 - 2개 NPU)를 비교한다. Denoising 단계에서 1.97배 속도 향상이 핵심이며, 전체적으로 1.88배 성능 개선을 보인다.

문서 트리 등록

# ascend_npu_support.rst
Ascend NPUs
   ascend_npu_best_practice.md
+  ascend_npu_ring_sp_performance.md
   ascend_npu_qwen3_5_examples.md

기존 Ascend NPU 문서 트리의 best practice 바로 다음에 위치시켜 사용자가 쉽게 찾을 수 있도록 배치했다.

왜 이게 좋은가

  • 실측 데이터 제공: 이론적 speedup이 아닌 실제 측정된 stage별 소요 시간 제공
  • 재현 가능: 정확한 명령어와 환경(torch_npu==2.10.0)을 명시하여 벤치마크 재현 가능
  • NPU 생태계 확장: Ascend NPU에서의 SGLang 활용 사례를 공식 문서에 추가

정리

Diffusion 모델(Wan2.1-T2V-1.3B)에서 Ring-SP를 적용했을 때 2개 NPU로 1.88배 성능 향상을 달성한 벤치마크 결과를 문서화한 PR이다. Denoising 단계가 전체 시간의 대부분을 차지하며 여기서 거의 2배의 speedup을 얻는 것이 핵심이다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

댓글

관련 포스트

PR Analysis 의 다른글