[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선

2026년 5월 16일수정: 2026년 5월 16일

PR 링크: sgl-project/sglang#25411 상태: Merged | 변경: +0 / -0

들어가며

최근 대규모 언어 모델(LLM)과 멀티모달 모델을 서빙할 때 가장 큰 병목 중 하나는 GPU 메모리 점유율입니다. 특히 이미지 생성 모델의 VAE(Variational Autoencoder)는 모델 전체 파이프라인에서 상당한 메모리를 차지합니다. SGLang 프로젝트의 이번 PR은 Qwen-Image를 비롯한 여러 멀티모달 모델의 VAE 정밀도 기본값을 fp32에서 bf16으로 변경함으로써, 불필요한 메모리 낭비를 줄이고 효율성을 극대화한 사례입니다.

코드 분석

이번 변경의 핵심은 각 모델의 PipelineConfig에서 VAE 정밀도 설정을 bf16으로 강제하는 것입니다. 기존에는 체크포인트가 bf16으로 저장되어 있음에도 불구하고, 파이프라인 설정에서 fp32를 기본값으로 사용하여 텐서가 불필요하게 upcasting 되는 문제가 있었습니다.

Qwen-Image 파이프라인 설정 변경

python/sglang/multimodal_gen/configs/pipeline_configs/qwen_image.py 파일에서 vae_precision을 명시적으로 설정했습니다.

# Before: 기본값 설정 없음 (기존 로직에 따라 fp32로 동작)

# After
class QwenImagePipelineConfig(QwenImageRolloutPipelineMixin, ImagePipelineConfig):
    vae_sp: bool = False
    vae_precision: str = "bf16"
    dit_config: DiTConfig = field(default_factory=QwenImageDitConfig)

LTX-2 및 MOVA 파이프라인 확장

리뷰 과정에서 LTX-2와 MOVA 모델 또한 동일한 문제가 있음을 확인하고, 오디오 VAE를 포함한 모든 VAE 설정에 bf16을 적용했습니다.

# python/sglang/multimodal_gen/configs/pipeline_configs/ltx_2.py
    vae_precision: str = "bf16"
    audio_vae_config: LTXAudioVAEConfig = field(default_factory=LTXAudioVAEConfig)
-   audio_vae_precision: str = "fp32"
+   audio_vae_precision: str = "bf16"

왜 이게 좋은가

성능 및 메모리 개선

이번 최적화는 단순히 메모리만 줄인 것이 아니라, 성능 저하 없이 효율성을 확보했다는 점이 핵심입니다. Qwen-Image 모델의 경우, Peak 메모리 사용량이 64098 MB에서 58518 MB로 약 8.71% 감소했습니다. 또한, LTX-2나 Z-Image와 같은 다른 모델들에서도 4~8% 수준의 메모리 절감 효과를 확인했습니다.

기술적 교훈

데이터 타입 일치(Data Type Alignment): 체크포인트의 저장 형식과 추론 시의 정밀도를 일치시키는 것만으로도 메모리 오버헤드를 크게 줄일 수 있습니다.
기본값의 중요성: 라이브러리 설계 시, 최신 하드웨어(NVIDIA Ampere 아키텍처 이상)에서 널리 지원하는 bf16을 기본값으로 채택하는 것이 사용자 경험과 효율성 측면에서 훨씬 유리합니다.
협업을 통한 범위 확장: 초기에는 Qwen-Image에 국한된 문제였으나, 리뷰어와의 논의를 통해 유사한 구조를 가진 다른 모델들(LTX-2, MOVA 등)까지 최적화를 확장함으로써 프로젝트 전반의 품질을 높였습니다.

결론

이번 PR은 복잡한 알고리즘 변경 없이도 설정값 최적화만으로 대규모 모델 서빙의 메모리 효율을 크게 개선할 수 있음을 보여줍니다. 특히 멀티모달 파이프라인처럼 다양한 컴포넌트가 결합된 시스템에서는 각 컴포넌트의 정밀도 설정을 세밀하게 관리하는 것이 필수적입니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [sglang] LTX2 스플릿 로터리 커널 최적화: 헤드 배치 처리로 성능 2배 향상
현재글 : [sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선
다음글 [sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화