[vLLM] Pipeline Parallelism: 파이프라인 병렬화vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.#vllm#pipeline-parallelism#distributed#gpu2026년 4월 7일댓글 수 로딩 중
[vLLM] Executor 아키텍처: UniProc, Multiproc, RayvLLM v1의 Executor 추상화가 단일 GPU부터 다중 노드까지 실행 환경을 통합하는 방식을 분석한다.#vllm#executor#distributed#ray#multiprocessing2026년 4월 7일댓글 수 로딩 중
[vLLM] KV Transfer Connectors: KV 캐시 전송 프레임워크vLLM v1의 KV Transfer Connector 프레임워크를 분석한다. Prefill-Decode 분리, KV 캐시 오프로딩, NIXL 원격 전송 등 다양한 KV 전송 전략을 지원하는 추상화 계층을 살펴본다.#vllm#KV cache#distributed#disaggregated serving#connector2026년 4월 7일댓글 수 로딩 중
[vLLM] Context Parallelism: 컨텍스트 병렬화vLLM의 Decode Context Parallelism(DCP) 구현을 분석한다. All-to-All 통신으로 어텐션 출력과 LSE를 교환하고 Triton 커널로 결합하는 방법을 코드 레벨에서 살펴본다.#vllm#context parallelism#distributed#all-to-all#triton2026년 4월 7일댓글 수 로딩 중
[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.#vllm#tensor-parallelism#distributed#megatron2026년 4월 7일댓글 수 로딩 중