[vLLM] Tensor Parallelism: 거대 모델을 여러 GPU에 나누는 텐서 병렬화Megatron-LM 스타일의 텐서 병렬화가 vLLM의 Linear 레이어에 어떻게 구현되어 있는지를 ColumnParallelLinear와 RowParallelLinear 코드로 분석한다.#vllm#tensor-parallelism#distributed#megatron2026년 4월 7일댓글 수 로딩 중