[sglang] SGLang: Piecewise CUDA Graph와 Sliding Window Attention의 효율적인 공존SGLang에서 Piecewise CUDA Graph와 Sliding Window Attention의 제약을 해제하여 성능을 개선합니다.#SGLang#CUDA Graph#Sliding Window Attention#성능 최적화#LLM 추론2026년 3월 31일댓글 수 로딩 중
[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.#SGLang#Whisper#CUDA Graph#Performance Optimization#LLM2026년 3월 28일댓글 수 로딩 중
[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다#CUDA Graph#torch.compile#LLM Inference#SGLang2025년 10월 12일댓글 수 로딩 중