[vllm] vLLM W8W8 그룹 양자화 성능 최적화: 2D-Grid를 통한 Divmod 제거vLLM의 W8W8 그룹 양자화 커널에서 divmod 연산을 2D-grid로 대체하여 성능을 개선합니다.#vLLM#CUDA#GPU 최적화#양자화#성능#divmod#2D-grid2026년 5월 12일댓글 수 로딩 중
[vllm] vLLM, Gemma 4 모델에 양자화된 Speculative Decoding 적용: 성능 향상의 비밀vLLM이 Gemma 4 모델에 Speculative Decoding을 도입하여 추론 속도를 획기적으로 개선한 방법을 분석합니다.#vLLM#Speculative Decoding#Gemma 4#LLM 최적화#양자화2026년 5월 6일댓글 수 로딩 중
[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.#llm-compressor#Gemma4#MoE#양자화#최적화#기술 블로그2026년 4월 7일댓글 수 로딩 중