[SGLang] FastAPI 기반 HTTP 서버: 비동기 추론 서빙의 진입점SGLang의 FastAPI 기반 HTTP 서버 구현을 분석한다. 라우트 등록, 미들웨어 구성, OpenAI 호환 핸들러 초기화, 비동기 요청 처리 흐름을 코드와 함께 살펴본다.#sglang#HTTP Server#FastAPI#LLM Serving2026년 4월 9일댓글 수 로딩 중
[Ray Serve] SGLang 서버의 순차 배치 처리를 동시 실행으로 전환completions 엔드포인트에서 여러 프롬프트를 for 루프로 순차 처리하던 로직을 SGLang의 네이티브 배치 호출로 변경하여 동시 처리 성능을 개선한 수정.#Ray#Python#Performance#SGLang#LLM Serving2026년 3월 24일댓글 수 로딩 중
[논문리뷰] FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM ServingJidong Zhai이 arXiv에 게시한 'FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving' 논문에 대한 자세한 리뷰입니다.#Review#LLM Serving#Head-of-Line Blocking#Preemption#Prefill Scheduling#Time-to-First-Token (TTFT)#SLO-aware Scheduling#Operator-Level Preemption#Event-Driven Scheduling2026년 2월 24일댓글 수 로딩 중