본문으로 건너뛰기

secrett2633's blog

카테고리

Python

PEP (650)

AI/ML

Review (4456)

OpenSource

PR Analysis (938)
vLLM (71)
SGLang (130)
llm-compressor (45)

Python

PEP (650)

AI/ML

Review (4456)

OpenSource

PR Analysis (938)
vLLM (71)
SGLang (130)
llm-compressor (45)

홈
#Humming

#Humming

2개의 포스트

[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남

vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.

#vLLM #Humming #MoE #Quantization #Performance Optimization #DeepSeek-V4 #MXFP4

2026년 5월 3일댓글 수 로딩 중

[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기

vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.

#vLLM #Quantization #Humming #LLM #Inference #Optimization

2026년 4월 24일댓글 수 로딩 중

AI Review Python PEP PR Analysis RSS GitHub

© 2026 secrett2633. All rights reserved.