[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석

2026년 4월 12일수정: 2026년 4월 12일

PR 링크: vllm-project/vllm#38815 상태: Merged | 변경: +None / -None

들어가며

대규모 언어 모델(LLM)의 서빙 비용을 절감하고 처리량을 높이기 위한 양자화 기술은 이제 선택이 아닌 필수입니다. 특히 최근에는 FP8과 같은 저정밀도 데이터 타입이 주목받고 있습니다. 이번 포스팅에서는 vLLM 프로젝트에 최근 병합된 [Quant] add CompressedTensorsW8A8Mxfp8 for linear and MoE layers PR을 통해, 새로운 양자화 규격인 MXFP8(Microscaling Formats)이 어떻게 구현되었고, 이것이 왜 성능 최적화 측면에서 중요한지 시니어 엔지니어의 시각에서 분석해 보겠습니다.

이 PR의 핵심 목적은 compressed-tensors 백엔드를 통해 사전 양자화된 MXFP8 모델을 지원하는 것입니다. 특히 Dense 레이어뿐만 아니라 MoE(Mixture of Experts) 레이어까지 지원 범위를 넓혔다는 점이 인상적입니다.

코드 분석: MXFP8 지원의 핵심 메커니즘

1. 양자화 스키마 판별 로직 (`compressed_tensors.py`)

가장 먼저 살펴볼 부분은 모델 설정으로부터 MXFP8 양자화 적용 여부를 판단하는 정적 메서드입니다. MXFP8은 일반적인 FP8과 달리 특정 그룹 크기(Group Size)와 스케일 데이터 타입을 가집니다.

Before/After 비교:

# After: MXFP8 판별 로직 추가
@staticmethod
def _is_mxfp8(quant_args: QuantizationArgs) -> bool:
    if quant_args is None:
        return False

    is_group_quant = quant_args.strategy == QuantizationStrategy.GROUP.value
    is_symmetric = quant_args.symmetric
    is_group_size_32 = quant_args.group_size == 32
    is_float_type = quant_args.type == QuantizationType.FLOAT
    is_8_bits = quant_args.num_bits == 8
    is_mxfp8_scale_dtype = quant_args.scale_dtype == torch.uint8

    return (
        is_group_quant and is_float_type and is_8_bits
        and is_group_size_32 and is_symmetric and is_mxfp8_scale_dtype
    )

왜 좋은가? MXFP8 규격의 핵심인 group_size == 32와 scale_dtype == torch.uint8 (E8M0 형식)을 명확히 검증합니다. 이를 통해 잘못된 양자화 설정이 커널 수준으로 전달되어 런타임 에러가 발생하는 것을 방지합니다.

2. MoE 레이어를 위한 전용 메서드 구현

MoE 모델은 수많은 전문가(Expert) 레이어를 포함하므로 메모리 대역폭이 병목이 되기 쉽습니다. 이번 PR에서는 CompressedTensorsW8A8Mxfp8MoEMethod 클래스를 신설하여 MoE 전용 최적화 경로를 구축했습니다.

코드 인용 (compressed_tensors_moe_w8a8_mxfp8.py):

def create_weights(self, layer: torch.nn.Module, ...):
    # MXFP8 가중치와 스케일 파라미터 등록
    w13_weight = torch.nn.Parameter(
        torch.empty(num_experts, shards * intermediate_size, hidden_size,
                    dtype=MXFP8_VALUE_DTYPE), requires_grad=False)
    
    # 그룹 스케일 (Group Size 32 적용)
    w13_weight_scale = torch.nn.Parameter(
        torch.empty(num_experts, shards * intermediate_size, 
                    hidden_size // MXFP8_BLOCK_SIZE,
                    dtype=MXFP8_SCALE_DTYPE), requires_grad=False)

왜 좋은가?

메모리 효율성: 가중치를 MXFP8_VALUE_DTYPE(FP8)로 유지하고, 스케일 값을 32개 요소당 하나씩(hidden_size // 32) 배치하여 메모리 사용량을 획기적으로 줄였습니다.
백엔드 유연성: select_mxfp8_moe_backend를 통해 하드웨어 성능에 따라 FlashInfer, TRT-LLM, 또는 Marlin 백엔드를 자동으로 선택하도록 설계되었습니다.

왜 이게 좋은 최적화인가?

1. 압도적인 성능 향상

PR 설명에 포함된 벤치마크 결과에 따르면, Qwen3-30B 모델 기준 BF16 대비 MXFP8의 성능 향상은 놀랍습니다.

BF16: 7.49 req/s (15,344 total tokens/s)
MXFP8: 10.69 req/s (21,902 total tokens/s)

약 42.7%의 처리량(Throughput) 향상이 관찰되었습니다. 이는 양자화를 통해 메모리 대역폭 병목을 해소하고, 연산 가속을 효과적으로 활용했음을 증명합니다.

⚠️ 알림: 이 분석은 AI가 실제 코드 diff를 기반으로 작성했습니다.

PR Analysis 의 다른글

이전글 [sglang] SGLang에서 GLM-5 모델 성능 최적화: Aiter 백엔드 활용 및 텐서 패딩 전략
현재글 : [vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석
다음글 [sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석

들어가며

코드 분석: MXFP8 지원의 핵심 메커니즘

1. 양자화 스키마 판별 로직 (`compressed_tensors.py`)

2. MoE 레이어를 위한 전용 메서드 구현

왜 이게 좋은 최적화인가?

1. 압도적인 성능 향상

2. 정확도 손실의 최소화

3. 하드웨어 호환성 고려

시니어 엔지니어의 관점: 교훈

결론

참고 자료

댓글

관련 포스트

PR Analysis 의 다른글