[vLLM] GPUModelRunner: GPU 모델 포워드 패스vLLM v1의 GPUModelRunner가 스케줄러 출력을 받아 GPU에서 모델을 실행하고, KV 캐시 관리, CUDA 그래프 캡처, speculative decoding까지 처리하는 과정을 코드 레벨에서 분석한다.#vllm#GPU#model runner#forward pass#CUDA2026년 4월 7일댓글 수 로딩 중