#W4A16

3개의 포스트

[axolotl] Axolotl, Marlin W4A16 도입으로 MoE 모델 추론 속도 1.79배 향상 및 품질 개선

Axolotl이 Marlin W4A16 백엔드를 도입하여 MoE 모델의 추론 속도를 1.79배 높이고, 활성화 양자화 오류를 제거하여 모델 품질을 향상시켰습니다.

#Axolotl #Marlin #MoE #DeepSeek-V4 #W4A16 #BF16 #Quantization #Optimization #Deep Learning #LLM

2026년 6월 20일

[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석

AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.

#vLLM #ROCm #RDNA3 #GPTQ #W4A16 #HIP #Kernel Optimization #bf16 #fp16 #GPU Programming

2026년 5월 29일

[vllm] [vLLM] W4A16 양자화 모델의 호환성 문제 해결: Triton 커널을 활용한 CUDA Fallback 구현

Marlin 커널의 정렬 제약으로 인해 실행 불가능했던 W4A16 모델들을 Triton 커널 fallback을 통해 CUDA 환경에서도 지원하도록 개선했습니다.

#vLLM #CUDA #Triton #Quantization #LLM Inference #W4A16

2026년 5월 27일