[flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다

2026년 5월 7일수정: 2026년 5월 7일

PR 링크: flashinfer-ai/flashinfer#3129 상태: Merged | 변경: +None / -None

들어가며

최근 대규모 언어 모델(LLM)은 놀라운 성능을 보여주지만, 긴 컨텍스트를 처리하는 데에는 여전히 많은 컴퓨팅 자원이 소모됩니다. 특히 추론 시 Time To First Token (TTFT)을 줄이고 처리량을 높이기 위해 FP8과 같은 저정밀도 양자화 기법이 중요하게 사용됩니다. 하지만 vLLM과 같은 프레임워크에서 사용되는 FlashInfer 라이브러리의 concat_mla_k 함수가 FP8 입력을 제대로 지원하지 않아, FP8을 활용한 청크드 프리필(chunked prefill) 기능이 제대로 작동하지 못하는 문제가 있었습니다. 이 PR은 concat_mla_k 함수에 FP8 (E4M3, E5M2) 지원을 추가하여 이 문제를 근본적으로 해결하고, 장문 컨텍스트 추론 성능을 크게 향상시킵니다.

코드 분석

이번 PR은 주로 concat_mla_k 함수의 FP8 지원을 추가하고, 데이터 타입별 벡터 연산을 효율적으로 처리하기 위한 타입 디스패치 메커니즘을 개선하는 데 중점을 두었습니다.

1. `csrc/concat_mla.cu`: FP8 지원 추가

가장 핵심적인 변경은 concat_mla_k 함수 내에서 사용되는 디스패치 매크로를 DISPATCH_DLPACK_DTYPE_TO_CTYPE_FP16에서 DISPATCH_DLPACK_DTYPE_TO_CTYPE_FP16_FP8로 변경한 것입니다. 이는 기존의 BF16/FP16 뿐만 아니라 FP8 E4M3 및 E5M2 데이터 타입도 지원하도록 확장되었음을 의미합니다.

Before:

-  bool success = DISPATCH_DLPACK_DTYPE_TO_CTYPE_FP16(k.dtype(), c_type, [&] {
+  bool success = DISPATCH_DLPACK_DLPACK_DTYPE_TO_CTYPE_FP16_FP8(k.dtype(), c_type, [&] {

이 변경을 통해 concat_mla_k 함수는 FP8 타입의 입력을 받아도 더 이상 오류를 발생시키지 않고 올바르게 처리할 수 있게 되었습니다.

2. `csrc/tvm_ffi_utils.h`: 새로운 디스패치 매크로 정의

DISPATCH_DLPACK_DTYPE_TO_CTYPE_FP16_FP8 매크로는 기존의 FP16, BF16 케이스에 더해 FP8 E4M3 (_DISPATCH_CASE_FP8_E4M3) 및 FP8 E5M2 (_DISPATCH_CASE_FP8_E5M2) 케이스를 추가했습니다. 이를 통해 다양한 FP8 포맷을 CUDA 커널에서 지원할 수 있게 됩니다.

3. `include/flashinfer/concat_mla.cuh`: 타입별 벡터 연산(`ConcatMLAVecTraits`) 도입

이 파일에서는 FP8 지원을 위해 ConcatMLAVecTraits라는 템플릿 구조체가 새로 도입되었습니다. 이 구조체는 각 데이터 타입(FP16, BF16, FP8 E4M3, FP8 E5M2)에 맞는 최적의 벡터 로드/스토어 연산(load_nope, load_rope, store_nope, store_rope)을 정의합니다.

FP8은 각 요소당 1바이트로 FP16/BF16 (2바이트)보다 작기 때문에, 동일한 메모리 대역폭으로 더 많은 요소를 처리할 수 있습니다. ConcatMLAVecTraits는 이를 활용하여 FP8의 경우 nope 데이터는 int (4바이트), rope 데이터는 short (2바이트)를 사용하여 벡터 연산을 수행하도록 최적화합니다. 이는 기존 FP16/BF16에서 nope는 int2 (8바이트), rope는 int (4바이트)를 사용했던 것과 대조적입니다.

FP16/BF16:

NopeVec: int2 (8B/thread)
RopeVec: int (4B/thread)

FP8 (E4M3/E5M2):

NopeVec: int (4B/thread)
RopeVec: short (2B/thread)

if constexpr와 템플릿 메타프로그래밍을 사용하여 컴파일 타임에 최적의 벡터 타입과 연산이 선택되므로, 런타임 오버헤드는 발생하지 않습니다.

Before (기존 커널 로직 일부):

  // Vector types for efficient memory access
  // NopeVec: 8B/thread, 32 threads = 256B/row (covers nope_dim bf16 elements)
  // RopeVec: 4B/thread, 32 threads = 128B/row (covers rope_dim bf16 elements)
  using NopeVec = int2;
  using RopeVec = int;

  // ... (load/store operations using NopeVec/RopeVec)

After (새로운 커널 로직):

  using Traits = ConcatMLAVecTraits<DType>;
  using NopeVec = typename Traits::NopeVec;
  using RopeVec = typename Traits::RopeVec;

  // ... (load/store operations using Traits::load/store)

FP8 지원을 통한 성능 극대화: FP8 양자화는 메모리 대역폭과 연산량을 크게 줄여 LLM 추론 성능을 향상시키는 핵심 기술입니다. 특히 긴 컨텍스트 처리 시 FP8의 이점은 더욱 두드러집니다. 이 PR은 concat_mla_k 함수의 FP8 비호환성 문제를 해결함으로써, vLLM과 같은 프레임워크에서 FP8 기반의 청크드 프리필 기능을 온전히 활용할 수 있게 합니다.

실제 벤치마크 결과는 이러한 성능 향상을 명확히 보여줍니다. GB300에서 128K 컨텍스트 길이로 테스트했을 때, FP8을 사용하면 BF16 대비 다음과 같은 개선이 있었습니다:
- Median TTFT: -28.3% (42.0s → 30.1s)
- Mean TTFT: -27.0% (41.7s → 30.5s)
- P99 TTFT: -23.5% (43.8s → 33.5s)
- Token throughput: +37.0% (12,069 tok/s → 16,524 tok/s)
이 수치들은 FP8 도입이 실제 추론 속도와 처리량에 미치는 지대한 영향을 입증합니다.
근본적인 문제 해결: 이전에는 FP8 지원이 없어 vLLM 측에서 임시 방편으로 BF16에서 FP8으로의 불필요한 변환을 추가한 뒤 다시 FP8으로 변환하는 비효율적인 방식을 사용했습니다. 이 PR은 커널 레벨에서 FP8을 직접 지원함으로써 이러한 임시 방편을 제거하고, 근본적인 문제를 해결했습니다.
효율적인 타입 디스패치: ConcatMLAVecTraits와 if constexpr를 활용한 컴파일 타임 타입 디스패치는 FP8의 특성에 맞는 최적의 벡터 연산을 런타임 오버헤드 없이 적용할 수 있게 합니다. 이는 코드의 유연성과 성능을 동시에 확보하는 모범적인 사례입니다.
철저한 테스트: 다양한 데이터 타입과 시나리오에 대한 포괄적인 테스트 케이스는 코드 변경의 안정성과 정확성을 보장합니다. 이는 라이브러리의 신뢰도를 높이는 데 필수적입니다.

일반적 교훈

저정밀도 연산의 중요성: LLM과 같은 대규모 모델에서는 메모리 대역폭과 연산량이 병목 현상의 주된 원인입니다. FP8과 같은 저정밀도 데이터 타입을 적극적으로 활용하여 성능을 개선하는 것이 중요합니다.
커널 레벨 최적화: 라이브러리 내부의 핵심 연산(예: concat_mla_k)에서 특정 데이터 타입의 지원을 추가하는 것은 전체 시스템 성능에 큰 영향을 미칠 수 있습니다.
유연한 타입 처리: 다양한 데이터 타입을 효율적으로 지원하기 위해 템플릿 메타프로그래밍과 컴파일 타임 디스패치를 활용하는 것은 좋은 설계 패턴입니다.
테스트의 중요성: 새로운 기능이나 최적화를 도입할 때는 철저한 테스트를 통해 정확성과 안정성을 검증해야 합니다.

References

참고 자료

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석
현재글 : [flashinfer] FlashInfer, FP8 지원으로 장문 컨텍스트 추론 성능을 극적으로 향상시키다
다음글 [flashinfer] NVIDIA Blackwell SM120을 위한 MoE Short-Decode 최적화 분석