본문으로 건너뛰기

secrett2633's blog

카테고리

Python

PEP (650)

AI/ML

Review (4720)

OpenSource

PR Analysis (993)
vLLM (71)
SGLang (130)
llm-compressor (45)

Python

PEP (650)

AI/ML

Review (4720)

OpenSource

PR Analysis (993)
vLLM (71)
SGLang (130)
llm-compressor (45)

홈
#Marlin

#Marlin

2개의 포스트

[axolotl] Axolotl, Marlin W4A16 도입으로 MoE 모델 추론 속도 1.79배 향상 및 품질 개선

Axolotl이 Marlin W4A16 백엔드를 도입하여 MoE 모델의 추론 속도를 1.79배 높이고, 활성화 양자화 오류를 제거하여 모델 품질을 향상시켰습니다.

#Axolotl #Marlin #MoE #DeepSeek-V4 #W4A16 #BF16 #Quantization #Optimization #Deep Learning #LLM

2026년 6월 20일댓글 수 로딩 중

[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석

DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.

#LLM #Quantization #CUDA #DeepSeek-V4 #SGLang #Marlin

2026년 5월 7일댓글 수 로딩 중

AI Review Python PEP PR Analysis RSS GitHub

© 2026 secrett2633. All rights reserved.