#양자화

4개의 포스트

[sglang] SGLang, FlashInfer의 CuTe DSL 백엔드 도입으로 NVFP4 양자화 성능 극대화

SGLang이 FlashInfer의 최신 CuTe DSL 백엔드를 활용하여 NVFP4 양자화 성능을 크게 향상시킵니다.

#SGLang #FlashInfer #NVFP4 #양자화 #성능 최적화 #CuTe DSL #LLM

2026년 7월 13일

[vllm] vLLM W8W8 그룹 양자화 성능 최적화: 2D-Grid를 통한 Divmod 제거

vLLM의 W8W8 그룹 양자화 커널에서 divmod 연산을 2D-grid로 대체하여 성능을 개선합니다.

#vLLM #CUDA #GPU 최적화 #양자화 #성능 #divmod #2D-grid

2026년 5월 12일

[vllm] vLLM, Gemma 4 모델에 양자화된 Speculative Decoding 적용: 성능 향상의 비밀

vLLM이 Gemma 4 모델에 Speculative Decoding을 도입하여 추론 속도를 획기적으로 개선한 방법을 분석합니다.

#vLLM #Speculative Decoding #Gemma 4 #LLM 최적화 #양자화

2026년 5월 6일

[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석

llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.

#llm-compressor #Gemma4 #MoE #양자화 #최적화 #기술 블로그

2026년 4월 7일