[vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원

2026년 1월 8일수정: 2026년 1월 8일

PR 링크: vllm-project/vllm#30190 상태: Merged | 변경: +1,357/-6

들어가며

vLLM은 기본적으로 OpenAI 호환 REST API를 제공한다. 하지만 내부 마이크로서비스 간 통신이나 high-throughput 환경에서는 HTTP/JSON의 직렬화/역직렬화 오버헤드가 문제가 될 수 있다. 이 PR은 gRPC 서버 엔트리포인트를 추가하여 protobuf 기반의 효율적인 통신을 지원한다.

핵심 코드 분석

gRPC 서버의 주요 구성:

Proto 정의: Chat Completion, Completion 등 OpenAI API에 대응하는 gRPC 서비스 정의
스트리밍 지원: server-side streaming으로 토큰 단위 실시간 전송
엔진 통합: 기존 AsyncLLMEngine과 직접 연결하여 추가 변환 계층 최소화
헬스 체크: gRPC health checking protocol 지원

왜 이게 좋은가

낮은 Latency: protobuf 바이너리 직렬화로 JSON 대비 직렬화/역직렬화 시간 단축
높은 Throughput: HTTP/2 기반 멀티플렉싱으로 단일 연결에서 동시 요청 처리
타입 안전성: proto 정의에 의한 컴파일 타임 타입 체크
마이크로서비스 통합: Kubernetes, Istio 등 gRPC 네이티브 인프라와 자연스러운 통합

정리

gRPC 지원은 vLLM을 엔터프라이즈 마이크로서비스 아키텍처에 통합하기 위한 핵심 기능이다. REST API와 gRPC를 모두 지원하여, 사용 환경에 맞는 프로토콜을 선택할 수 있다.

참고 자료

이 글은 AI(Claude)의 도움을 받아 작성되었습니다. 코드 분석 내용은 실제 PR diff를 기반으로 합니다.

댓글

관련 포스트

PR Analysis 의 다른글

이전글 [triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선
현재글 : [vllm] gRPC Server Entrypoint - 고성능 gRPC 서빙 지원
다음글 [Triton] AMD Gluon DSL에 TDM L2 Prefetch 노출 — 사용자 수준 프리페치 제어