[vllm] vLLM에 고성능 추론을 위한 HPC-Ops Attention 백엔드 도입

2026년 6월 30일수정: 2026년 6월 30일

PR 링크: vllm-project/vllm#46020 상태: Merged | 변경: +978 / -14

들어가며

vLLM은 고성능 LLM 추론을 위한 업계 표준 프레임워크입니다. 최근 vLLM 레포지토리에 Tencent의 Hunyuan AI Infra 팀이 개발한 고성능 연산자 라이브러리인 'HPC-Ops'를 Attention 백엔드로 지원하는 PR이 병합되었습니다. 이 최적화는 특히 FP8(E4M3) 데이터 타입을 사용하는 모델에서 연산 효율성을 극대화하는 데 목적이 있습니다.

코드 분석

1. Attention 레이어의 유연성 확보 (`vllm/model_executor/layers/attention/attention.py`)

기존에는 output_dtype이 단순히 query.dtype으로 고정되어 있었으나, 양자화된 모델이나 특정 백엔드 요구사항을 수용하기 위해 이를 선택적으로 오버라이드할 수 있도록 변경되었습니다.

# Before
output_dtype = query.dtype

# After
if output_dtype is None:
    output_dtype = query.dtype

이 변경을 통해 HPC 백엔드와 같이 특정 출력 데이터 타입을 요구하는 커스텀 연산자들과의 호환성이 개선되었습니다.

2. HPC-Ops 커스텀 연산자 등록 (`vllm/model_executor/layers/hpc/rope_norm.py`)

HPC-Ops의 핵심은 RoPE(Rotary Positional Embedding)와 QK-Norm, 그리고 KV Cache Write를 하나의 커널로 융합(fused)하는 것입니다. 이를 위해 CustomOp을 활용하여 torch.compile 환경에서도 효율적으로 동작하도록 설계되었습니다.

# CustomOp 등록을 통한 커널 호출
direct_register_custom_op(
    op_name="hpc_rope_norm_forward",
    op_func=hpc_rope_norm_forward,
    mutates_args=["output"],
    fake_impl=hpc_rope_norm_forward_fake,
)

이 방식은 Python 수준의 제어 흐름을 무시하고 CUDA 커널로 직접 진입하게 함으로써, 불필요한 오버헤드를 줄이고 CUDA Graph와의 통합을 용이하게 합니다.

왜 이게 좋은가

성능 향상

벤치마크 결과에 따르면, HPC_ATTN 백엔드는 다양한 시나리오(Prefill, Decode, Mixed)에서 기존의 FLASH_ATTN이나 TRITON_ATTN과 대등하거나 더 나은 성능을 보여줍니다. 특히 특정 모델(Hy3-FP8) 환경에서 최적화된 커널을 사용함으로써, 메모리 대역폭을 효율적으로 활용하고 연산 지연 시간을 최소화합니다.

일반적 교훈

커널 융합(Kernel Fusion)의 중요성: RoPE, Norm, KV Cache Write를 별도로 수행하면 메모리 읽기/쓰기(IO)가 반복됩니다. 이를 하나의 커널로 합치면 메모리 접근 횟수를 획기적으로 줄일 수 있습니다.
CustomOp 활용: torch.compile 환경에서 파이썬 로직이 병목이 될 때, CustomOp을 통해 특정 구간을 블랙박스화하여 컴파일러의 최적화 범위를 명확히 지정하는 전략은 매우 효과적입니다.
유연한 백엔드 설계: vLLM과 같이 다양한 하드웨어와 모델을 지원해야 하는 프레임워크에서는, 특정 백엔드에 의존적인 로직을 Registry 패턴과 CustomOp으로 분리하여 유지보수성을 높이는 것이 중요합니다.

리뷰 피드백 반영

리뷰 과정에서 HpcRopeNorm 모듈의 초기화 방식과 output_dtype 처리 방식에 대해 논의가 있었습니다. 특히 zyongye님은 forward 함수에서 output_dtype을 명시적으로 전달받는 구조를 제안하여, 백엔드별 하드코딩 없이도 유연한 확장이 가능하도록 개선되었습니다.

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [open-webui] Open WebUI 성능 최적화: Svelte 컴포넌트에서 불필요한 HTML 재정제 방지
현재글 : [vllm] vLLM에 고성능 추론을 위한 HPC-Ops Attention 백엔드 도입
다음글 [onnxruntime] ONNX Runtime QMoE SwiGLU GEMV 최적화: Split-K2 커널로 LLM 추론 가속화