#DistributedInference

2개의 포스트

[sglang] SGLang에서 DP Attention, TBO, Shared Experts Fusion 동시 최적화 구현

DP Attention, TBO, Shared Experts Fusion을 통합하여 DeepSeek 모델의 추론 성능을 약 2.5% 향상시킨 기술적 해결 과정.

#SGLang #DeepSeek #LLM #Optimization #DistributedInference

2026년 6월 10일

[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화

Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.

#vLLM #LLM #DistributedInference #KVCache #PerformanceOptimization

2026년 4월 30일