[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.#vLLM#Humming#MoE#Quantization#Performance Optimization#DeepSeek-V4#MXFP42026년 5월 3일댓글 수 로딩 중
[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.#vLLM#Quantization#Humming#LLM#Inference#Optimization2026년 4월 24일댓글 수 로딩 중