[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입

2026년 4월 23일수정: 2026년 4월 23일

PR 링크: vllm-project/vllm#38112 상태: Merged | 변경: +None / -None

들어가며

대규모 언어 모델(LLM)을 CPU에서 구동할 때, 어텐션(Attention) 연산의 Softmax 과정에서 발생하는 exp 연산은 전체 성능의 병목 지점 중 하나입니다. 특히 FP16이나 BF16과 같은 저정밀도(Reduced Precision) 데이터 타입을 사용할 경우, 높은 정밀도의 exp 구현은 불필요한 연산 비용을 발생시킵니다. 본 PR은 ARM NEON 하드웨어 환경에서 저정밀도 데이터 타입에 최적화된 고속 exp 루틴을 도입하여, 약 3-4%의 성능 향상을 달성했습니다.

코드 분석

1. `csrc/cpu/cpu_arch_macros.h`: 고속 Exp 구현체 추가

기존의 neon_expf는 범용적인 정밀도를 제공하지만, 저정밀도 환경에서는 다항식 근사(polynomial approximation)를 간소화하여 연산량을 줄일 수 있습니다. 새로운 neon_expf_f16은 5차 다항식 대신 3차 다항식을 사용하며, 자연로그(ln) 분할 과정을 생략하여 성능을 최적화했습니다.

// Before: 기존의 범용 neon_expf 구현 사용
// After: 저정밀도 최적화된 neon_expf_f16 추가
auto neon_expf_f16 = [&](float32x4_t values) __attribute__((always_inline)) {
  const uint32x4_t lt_lower = vcltq_f32(values, lower_bound);
  const uint32x4_t gt_upper = vcgtq_f32(values, upper_bound);
  float32x4_t n = vrndaq_f32(vmulq_f32(values, inv_ln2));
  float32x4_t r = vfmsq_n_f32(values, n, ln2);
  // ... (최적화된 다항식 연산)
  y = vbslq_f32(lt_lower, vdupq_n_f32(0.0f), y);
  y = vbslq_f32(gt_upper, vdupq_n_f32(INFINITY), y);
  return y;
};

2. `csrc/cpu/cpu_attn_impl.hpp`: 컴파일 타임 분기 처리

코드 리뷰 과정에서 런타임 분기를 피하고 컴파일 타임에 최적화된 경로를 선택하도록 수정되었습니다. IsReducedPrecision 플래그를 사용하여 BFloat16 또는 Half 타입일 경우에만 fast_exp_f16을 호출하도록 설계했습니다.

// After: 컴파일 타임에 최적화된 경로 선택
#if defined(DEFINE_FAST_EXP)
  #ifdef __aarch64__
            if constexpr (IsReducedPrecision) {
              vec = fast_exp_f16(vec);
            } else
  #endif
            {
              vec = fast_exp(vec);
            }
#endif

왜 이게 좋은가

성능 향상: Neoverse V1 하드웨어에서 3-4%의 속도 향상을 확인했습니다. 이는 반복적인 어텐션 연산에서 누적되어 전체 추론 속도에 유의미한 기여를 합니다.
정밀도 최적화: FP16/BF16의 경우 1 ULP(Unit in the Last Place) 이내의 오차 범위를 유지하면서 연산 복잡도를 낮췄습니다. 이는 모델의 정확도를 해치지 않으면서 하드웨어 가속을 극대화하는 전략입니다.
컴파일 타임 최적화: 런타임에 if문을 타지 않도록 if constexpr을 사용하여 분기 예측 실패(branch misprediction) 비용을 제거했습니다.

교훈

하드웨어 특화 최적화: 범용 라이브러리 함수가 항상 최선은 아닙니다. 데이터 타입의 특성(저정밀도)을 이해하면 다항식 근사 차수를 낮추는 것만으로도 큰 성능 이득을 얻을 수 있습니다.
코드 구조 유지: 리뷰어들은 ISA(Instruction Set Architecture) 종속적인 코드가 범용 구현부에 침투하는 것을 경계했습니다. 비록 ifdef가 다소 지저분해 보일 수 있으나, 이는 향후 x86 등 다른 플랫폼의 최적화 경로를 열어두기 위한 타협점이었습니다.