[sglang] SGLang에서 DP Attention, TBO, Shared Experts Fusion 동시 최적화 구현DP Attention, TBO, Shared Experts Fusion을 통합하여 DeepSeek 모델의 추론 성능을 약 2.5% 향상시킨 기술적 해결 과정.#SGLang#DeepSeek#LLM#Optimization#DistributedInference2026년 6월 10일댓글 수 로딩 중
[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.#vLLM#LLM#DistributedInference#KVCache#PerformanceOptimization2026년 4월 30일댓글 수 로딩 중