#serving

2개의 포스트

[vLLM] OpenAI 호환 API 서버: FastAPI 기반 HTTP 서빙

vLLM이 OpenAI API와 호환되는 HTTP 서버를 FastAPI로 구축하는 방법을 코드 레벨에서 분석한다.

#vllm #openai #fastapi #serving

2026년 4월 7일

[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭

전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.

#vllm #continuous-batching #scheduler #serving

2026년 4월 7일