[sglang] DeepSeek V3/R1 추론 최적화: DeepEP 공유 전문가(Shared Expert) 융합 기술 분석DeepEP 환경에서 공유 전문가를 MoE 경로로 통합하여 독립적 연산 오버헤드를 제거하고 추론 성능을 개선하는 최적화 기법을 살펴봅니다.#SGLang#DeepSeek#MoE#DeepEP#LLM Inference2026년 4월 9일댓글 수 로딩 중
[sglang] DeepEP Low Latency FP8 Dispatch 변경 revertDeepSeek-R1-0528-w4a8의 DeepEP Low Latency Dispatch FP8 통신 변경을 revert하여 안정성 확보#SGLang#DeepEP#MoE#FP8#Revert2026년 3월 31일댓글 수 로딩 중