#Gemma4

5개의 포스트

[vllm] vLLM, Gemma4 라우팅 함수 Triton 커널로 최적화하여 성능 대폭 향상

vLLM이 Gemma4 모델의 라우팅 함수를 Triton 커널로 최적화하여 서빙 성능을 크게 개선했습니다.

#vLLM #Gemma4 #Triton #최적화 #성능 향상 #AI 모델 서빙

2026년 4월 19일

[vllm] vLLM Gemma4 모델의 GPU/CPU 동기화 병목 현상 해결하기: non_blocking 전송의 중요성

Gemma4 모델의 임베딩 과정에서 발생하는 불필요한 GPU/CPU 동기화를 제거하여 추론 성능을 최적화한 사례를 분석합니다.

#vLLM #Gemma4 #CUDA #Performance-Optimization #PyTorch

2026년 4월 17일

[ollama] Ollama MLX Gemma4 성능 최적화: Fused Operations를 통한 효율성 증대

Ollama의 MLX 백엔드에서 Gemma4 모델의 성능을 fused operations로 최적화한 PR 분석.

#Ollama #MLX #Gemma4 #성능 최적화 #Fused Operations #Deep Learning #Go #Machine Learning

2026년 4월 15일

[llm-compressor] Gemma4 MoE 모델 양자화를 위한 llm-compressor 지원 추가 분석

llm-compressor에 Gemma4 MoE 모델의 양자화 및 최적화를 위한 지원을 추가하는 PR을 분석합니다.

#llm-compressor #Gemma4 #MoE #양자화 #최적화 #기술 블로그

2026년 4월 7일

[ollama] Ollama의 Gemma 4 모델 Flash Attention 비활성화: 성능 회귀(Regression) 해결 사례

Gemma 4 모델에서 Flash Attention 적용 후 발생한 40% 이상의 성능 저하 문제를 Revert를 통해 해결한 사례를 분석합니다.

#Ollama #FlashAttention #Performance #Gemma4 #Optimization

2026년 4월 4일