[vllm] Encoder 분리 - Encode-Prefill-Decode Disaggregation

2025년 11월 12일수정: 2025년 11월 12일

PR 링크: vllm-project/vllm#25233 상태: Merged | 변경: +5,025/-41

들어가며

멀티모달 LLM(비전-언어 모델 등)에서 인코더, prefill, decode는 각각 다른 연산 특성을 가진다. 인코더는 compute-bound, prefill은 memory-bound, decode는 latency-sensitive하다. 이 PR은 이 세 단계를 물리적으로 분리하여 각각 독립적으로 스케일링하고 최적화할 수 있는 disaggregation 아키텍처를 구현한다.

핵심 코드 분석

5,025줄의 추가는 다음 구성요소를 포함한다:

Encoder Worker: 비전 인코더만 실행하는 독립 워커
KV Transfer: 인코더 출력을 prefill 워커로 전송하는 메커니즘
Phase Routing: 요청을 encode/prefill/decode 단계에 따라 적절한 워커로 라우팅
EC(Encoder Cache) Connector: 인코더 캐시를 관리하고 공유하는 커넥터

기존 코드 변경은 41줄에 불과하여, 대부분의 구현이 새로운 모듈로 이루어졌다.

왜 이게 좋은가

독립적 스케일링: 인코더는 GPU 1대, prefill은 2대, decode는 4대처럼 단계별 리소스 할당
하드웨어 최적화: 인코더는 compute-optimized GPU, decode는 memory-optimized GPU 사용 가능
throughput 극대화: 각 단계가 독립적으로 파이프라인되어 GPU 유휴 시간 최소화
멀티모달 특화: 이미지/비디오 처리가 무거운 멀티모달 워크로드에서 특히 효과적

정리

Encode-Prefill-Decode Disaggregation은 멀티모달 LLM 서빙의 차세대 아키텍처다. 5,000줄 이상의 대규모 PR이지만, 기존 코드에 대한 영향을 최소화하면서 새로운 기능을 추가한 깔끔한 설계가 돋보인다.

참고 자료

PR #25233

이 글은 AI(Claude)의 도움을 받아 작성되었습니다. 코드 분석 내용은 실제 PR diff를 기반으로 합니다.

댓글

관련 포스트

PR Analysis 의 다른글

이전글 [Triton] JIT specialization data 직렬화 tuple/constexpr 수정
현재글 : [vllm] Encoder 분리 - Encode-Prefill-Decode Disaggregation
다음글 [vllm] ROCm Sleep Mode - AMD GPU 전력 절약 모드 이식