#model runner

1개의 포스트

[vLLM] GPUModelRunner: GPU 모델 포워드 패스

vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.

#vllm #GPU #model runner #forward pass #CUDA

2026년 4월 7일