#scheduler

4개의 포스트

[vLLM] Preemption & Async Scheduling: 선점과 비동기 스케줄링

vLLM v1 스케줄러의 선점 메커니즘과 비동기 스케줄링을 분석한다. waiting/running 큐 관리, KV 커넥터 통합, 멀티모달 예산 관리를 살펴본다.

#vllm #scheduler #preemption #async #memory-management

2026년 4월 8일

[vLLM] EngineCore: 핵심 실행 루프

vLLM v1 EngineCore의 스케줄링-실행-업데이트 루프를 코드 레벨에서 분석한다. 별도 프로세스에서 돌아가는 이 엔진의 step() 함수가 모든 것을 조율한다.

#vllm #scheduler #engine core #inference loop

2026년 4월 7일

[vLLM] Chunked Prefill: 긴 프롬프트를 청크 단위로 분할 처리하는 기법

긴 프롬프트가 디코딩 요청을 기아(starvation) 상태에 빠뜨리는 문제를 해결하는 Chunked Prefill의 구현을 분석한다.

#vllm #chunked-prefill #scheduler #latency

2026년 4월 7일

[vLLM] Continuous Batching: 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭

전통적인 static batching의 한계를 넘어 요청 단위로 동적 스케줄링하는 Continuous Batching의 구현을 vLLM 스케줄러 코드로 분석한다.

#vllm #continuous-batching #scheduler #serving

2026년 4월 7일