#distributed

5개의 포스트

[vLLM] Pipeline Parallelism: 파이프라인 병렬화

vLLM이 파이프라인 병렬화를 구현하여 대규모 모델을 여러 GPU에 분산하는 방식을 분석한다.

#vllm #pipeline-parallelism #distributed #gpu

2026년 4월 7일

[vLLM] Executor 아키텍처: UniProc, Multiproc, Ray

vLLM v1의 Executor 추상화가 단일 GPU부터 다중 노드까지 실행 환경을 통합하는 방식을 분석한다.

#vllm #executor #distributed #ray #multiprocessing

2026년 4월 7일

[vLLM] KV Transfer Connectors: KV 캐시 전송 프레임워크

vLLM v1의 KV Transfer Connector 프레임워크를 분석한다. Prefill-Decode 분리, KV 캐시 오프로딩, NIXL 원격 전송 등 다양한 KV 전송 전략을 지원하는 추상화 계층을 살펴본다.

#vllm #KV cache #distributed #disaggregated serving #connector

2026년 4월 7일

[vLLM] Context Parallelism: 컨텍스트 병렬화

vLLM의 Decode Context Parallelism(DCP) 구현을 분석한다. All-to-All 통신으로 어텐션 출력과 LSE를 교환하고 Triton 커널로 결합하는 방법을 코드 레벨에서 살펴본다.

#vllm #context parallelism #distributed #all-to-all #triton

2026년 4월 7일

[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화

Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.

#vllm #tensor-parallelism #distributed #megatron

2026년 4월 7일