[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

2026년 4월 8일수정: 2026년 4월 8일

PR 링크: sgl-project/sglang#21710 상태: Merged | 변경: +None / -None

들어가며

최근 LLM 추론 분야에서는 모델의 가벼움과 속도를 동시에 잡기 위해 FP8 양자화 기술이 활발히 도입되고 있습니다. SGLang 프로젝트는 다양한 하드웨어 백엔드를 지원하는데, 이번 업데이트는 AMD의 최신 가속기인 MI30x 및 MI35x 환경에서 zai-org/GLM-5-FP8 모델의 성능을 안정적으로 추적하기 위한 나이트리 벤치마크 파이프라인을 구축하는 데 초점을 맞추고 있습니다. 특히, 기존 NVIDIA 환경과의 설정 불일치를 해소하고, 성능 저하를 방지하기 위한 파서(parser) 설정을 동기화하는 것이 이번 PR의 핵심입니다.

코드 분석

1. CI 워크플로우 업데이트 (`.github/workflows/nightly-test-amd.yml`)

기존에는 정확도 테스트만 수행하던 AMD 나이트리 잡에 성능 테스트 단계를 추가했습니다. 특히, 성능 테스트 실패가 전체 CI 파이프라인을 중단시키지 않도록 continue-on-error: true 설정을 적용했습니다.

- name: Performance Test (8-GPU GLM-5)
  timeout-minutes: 120
  continue-on-error: true
  run: |
    python3 run_suite.py --hw amd --suite nightly-perf-8-gpu-glm5 --nightly ...

2. 모델 설정 동기화 (`test/registered/amd/accuracy/mi30x/test_glm5_eval_amd.py`)

리뷰어 1am9trash의 제안에 따라, NVIDIA 환경 및 InferenceX 설정과 일치하도록 파서 플래그를 추가했습니다. 이는 플랫폼 간의 추론 결과 차이를 최소화하고 일관된 동작을 보장합니다.

Before:

other_args=[
    "--trust-remote-code",
    "--nsa-prefill-backend", "tilelang",
    ...
]

After:

other_args=[
    "--trust-remote-code",
    "--reasoning-parser", "glm45",
    "--tool-call-parser", "glm47",
    "--nsa-prefill-backend", "tilelang",
    ...
]

3. 새로운 벤치마크 스위트 추가 (`test/registered/amd/perf/mi30x/test_glm5_perf_amd.py`)

bench_one_batch를 사용하여 MI30x/MI35x 환경에서 배치 사이즈별 성능을 측정하는 새로운 테스트 스위트를 도입했습니다. 이는 하드웨어 변경이나 SGLang 커널 업데이트 시 성능 회귀(regression)를 즉각적으로 탐지할 수 있게 합니다.

왜 이게 좋은가

플랫폼 간 일관성 확보: --reasoning-parser와 --tool-call-parser를 명시함으로써, 특정 하드웨어에서만 발생하는 파싱 오류나 동작 차이를 방지했습니다. 이는 모델의 실제 서비스 배포 시 예측 가능성을 높여줍니다.
CI 효율성 증대: 정확도 테스트와 성능 테스트를 분리하여, 성능 수치가 다소 변동되더라도 전체 빌드가 실패하지 않도록 설계했습니다. 이는 개발 속도를 저해하지 않으면서도 성능 지표를 꾸준히 모니터링할 수 있는 좋은 구조입니다.
FP8 최적화 검증: MI30x에서 fp8_e4m3 KV 캐시를 사용하도록 설정함으로써, 메모리 대역폭 효율을 극대화하고 더 큰 배치 사이즈에서도 안정적인 추론이 가능해졌습니다.

이번 개선은 단순히 테스트를 추가하는 것을 넘어, AMD ROCm 환경에서도 NVIDIA와 대등한 수준의 최적화된 추론 경험을 제공하기 위한 중요한 발걸음입니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감
현재글 : [sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화
다음글 [sglang] sglang, GLM-5.1-FP8 모델 성능 및 정확도 벤치마크 추가: AMD GPU 환경에서의 최적화 분석

[sglang] SGLang AMD 환경에서의 GLM-5-FP8 성능 벤치마크 도입 및 최적화

들어가며

코드 분석

1. CI 워크플로우 업데이트 (`.github/workflows/nightly-test-amd.yml`)

2. 모델 설정 동기화 (`test/registered/amd/accuracy/mi30x/test_glm5_eval_amd.py`)

3. 새로운 벤치마크 스위트 추가 (`test/registered/amd/perf/mi30x/test_glm5_perf_amd.py`)

왜 이게 좋은가

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글

들어가며

코드 분석

1. CI 워크플로우 업데이트 (.github/workflows/nightly-test-amd.yml)

2. 모델 설정 동기화 (test/registered/amd/accuracy/mi30x/test_glm5_eval_amd.py)

3. 새로운 벤치마크 스위트 추가 (test/registered/amd/perf/mi30x/test_glm5_perf_amd.py)

왜 이게 좋은가

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글

1. CI 워크플로우 업데이트 (`.github/workflows/nightly-test-amd.yml`)

2. 모델 설정 동기화 (`test/registered/amd/accuracy/mi30x/test_glm5_eval_amd.py`)

3. 새로운 벤치마크 스위트 추가 (`test/registered/amd/perf/mi30x/test_glm5_perf_amd.py`)