[axolotl] Axolotl, Marlin W4A16 도입으로 MoE 모델 추론 속도 1.79배 향상 및 품질 개선Axolotl이 Marlin W4A16 백엔드를 도입하여 MoE 모델의 추론 속도를 1.79배 높이고, 활성화 양자화 오류를 제거하여 모델 품질을 향상시켰습니다.#Axolotl#Marlin#MoE#DeepSeek-V4#W4A16#BF16#Quantization#Optimization#Deep Learning#LLM2026년 6월 20일댓글 수 로딩 중
[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.#LLM#Quantization#CUDA#DeepSeek-V4#SGLang#Marlin2026년 5월 7일댓글 수 로딩 중