[vllm] vLLM의 콜드 스타트 성능을 20% 향상시키는 비동기 최적화 기법백그라운드 스레드를 활용한 모델 가중치 프리페치와 forkserver 사전 준비로 vLLM 엔진 구동 시간을 획기적으로 단축했습니다.#vLLM#Performance#Optimization#Python#Multiprocessing2026년 4월 21일댓글 수 로딩 중
[SGLang] Engine: 멀티프로세스 오케스트레이터의 설계와 구현SGLang Engine 클래스의 멀티프로세스 아키텍처를 분석한다. ZMQ IPC 기반 프로세스 간 통신, TokenizerManager-Scheduler-DetokenizerManager 파이프라인, 프로세스 생성과 라이프사이클 관리를 코드와 함께 살펴본다.#sglang#Engine#Multiprocessing#ZMQ IPC2026년 4월 9일댓글 수 로딩 중
[sglang] 멀티프로세스 JIT 컴파일로 Custom All Reduce 테스트 속도 향상SGLang의 custom all reduce 테스트에서 JIT 커널 컴파일을 멀티프로세스로 병렬화하여 테스트 시간을 500초에서 300초로 단축한 최적화 분석.#SGLang#Testing#JIT Compilation#Multiprocessing#All Reduce#CUDA2026년 3월 31일댓글 수 로딩 중