[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화
PR 링크: sgl-project/sglang#21710 상태: Merged | 변경: +None / -None
들어가며
최근 LLM 추론 분야에서는 모델의 가벼움과 속도를 동시에 잡기 위해 FP8 양자화 기술이 활발히 도입되고 있습니다. SGLang 프로젝트는 다양한 하드웨어 백엔드를 지원하는데, 이번 업데이트는 AMD의 최신 가속기인 MI30x 및 MI35x 환경에서 zai-org/GLM-5-FP8 모델의 성능을 안정적으로 추적하기 위한 나이트리 벤치마크 파이프라인을 구축하는 데 초점을 맞추고 있습니다. 특히, 기존 NVIDIA 환경과의 설정 불일치를 해소하고, 성능 저하를 방지하기 위한 파서(parser) 설정을 동기화하는 것이 이번 PR의 핵심입니다.
코드 분석
1. CI 워크플로우 업데이트 (.github/workflows/nightly-test-amd.yml)
기존에는 정확도 테스트만 수행하던 AMD 나이트리 잡에 성능 테스트 단계를 추가했습니다. 특히, 성능 테스트 실패가 전체 CI 파이프라인을 중단시키지 않도록 continue-on-error: true 설정을 적용했습니다.
- name: Performance Test (8-GPU GLM-5)
timeout-minutes: 120
continue-on-error: true
run: |
python3 run_suite.py --hw amd --suite nightly-perf-8-gpu-glm5 --nightly ...
2. 모델 설정 동기화 (test/registered/amd/accuracy/mi30x/test_glm5_eval_amd.py)
리뷰어 1am9trash의 제안에 따라, NVIDIA 환경 및 InferenceX 설정과 일치하도록 파서 플래그를 추가했습니다. 이는 플랫폼 간의 추론 결과 차이를 최소화하고 일관된 동작을 보장합니다.
Before:
other_args=[
"--trust-remote-code",
"--nsa-prefill-backend", "tilelang",
...
]
After:
other_args=[
"--trust-remote-code",
"--reasoning-parser", "glm45",
"--tool-call-parser", "glm47",
"--nsa-prefill-backend", "tilelang",
...
]
3. 새로운 벤치마크 스위트 추가 (test/registered/amd/perf/mi30x/test_glm5_perf_amd.py)
bench_one_batch를 사용하여 MI30x/MI35x 환경에서 배치 사이즈별 성능을 측정하는 새로운 테스트 스위트를 도입했습니다. 이는 하드웨어 변경이나 SGLang 커널 업데이트 시 성능 회귀(regression)를 즉각적으로 탐지할 수 있게 합니다.
왜 이게 좋은가
- 플랫폼 간 일관성 확보:
--reasoning-parser와--tool-call-parser를 명시함으로써, 특정 하드웨어에서만 발생하는 파싱 오류나 동작 차이를 방지했습니다. 이는 모델의 실제 서비스 배포 시 예측 가능성을 높여줍니다. - CI 효율성 증대: 정확도 테스트와 성능 테스트를 분리하여, 성능 수치가 다소 변동되더라도 전체 빌드가 실패하지 않도록 설계했습니다. 이는 개발 속도를 저해하지 않으면서도 성능 지표를 꾸준히 모니터링할 수 있는 좋은 구조입니다.
- FP8 최적화 검증: MI30x에서
fp8_e4m3KV 캐시를 사용하도록 설정함으로써, 메모리 대역폭 효율을 극대화하고 더 큰 배치 사이즈에서도 안정적인 추론이 가능해졌습니다.
이번 개선은 단순히 테스트를 추가하는 것을 넘어, AMD ROCm 환경에서도 NVIDIA와 대등한 수준의 최적화된 추론 경험을 제공하기 위한 중요한 발걸음입니다.
참고 자료
⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.
관련 포스트
PR Analysis 의 다른글
- 이전글 [ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감
- 현재글 : [sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화
- 다음글 없음
댓글