[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.#vllm#scheduler#preemption#async#memory-management2026년 4월 8일댓글 수 로딩 중
[vLLM] EngineCore: 핵심 실행 루프vLLM v1 EngineCore의 스케줄링-실행-업데이트 루프를 코드 레벨에서 분석한다. 별도 프로세스에서 돌아가는 이 엔진의 step() 함수가 모든 것을 조율한다.#vllm#scheduler#engine core#inference loop2026년 4월 7일댓글 수 로딩 중
[vLLM] Chunked Prefill: 긴 프롬프트를 청크 단위로 분할 처리하는 기법긴 프롬프트가 디코딩 요청을 기아(starvation) 상태에 빠뜨리는 문제를 해결하는 Chunked Prefill의 구현을 분석한다.#vllm#chunked-prefill#scheduler#latency2026년 4월 7일댓글 수 로딩 중
[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.#vllm#continuous-batching#scheduler#serving2026년 4월 7일댓글 수 로딩 중