[vLLM] OpenAI 호환 API 서버: FastAPI 기반 HTTP 서빙vLLM이 OpenAI API와 호환되는 HTTP 서버를 FastAPI로 구축하는 방법을 코드 레벨에서 분석한다.#vllm#openai#fastapi#serving2026년 4월 7일댓글 수 로딩 중
[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.#vllm#continuous-batching#scheduler#serving2026년 4월 7일댓글 수 로딩 중