#disaggregated-serving

1개의 포스트

[vLLM] Disaggregated Prefill/Decode: 분리된 서빙

vLLM의 KV Connector 아키텍처를 통해 Prefill과 Decode를 별도 노드에서 실행하는 Disaggregated Serving의 구현 구조를 분석한다.

#vllm #disaggregated-serving #kv-transfer #distributed-inference

2026년 4월 7일