[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석#LLM#SGLang#Inference Optimization#KV Cache#Disaggregation#Performance2026년 5월 1일댓글 수 로딩 중
[SGLang] Prefill-Decode Disaggregation 개요: PD 분리 아키텍처SGLang의 Prefill-Decode Disaggregation을 분석한다. Prefill과 Decode를 별도 서버로 분리하는 아키텍처, 통합 서빙 대비 3.8x Prefill + 4.8x Decode 처리량 향상의 원리를 코드와 함께 살펴본다.#sglang#Disaggregation#PD Separation#Prefill-Decode2026년 4월 13일댓글 수 로딩 중
[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.#SGLang#NIXL#KV Cache#Disaggregation#TP Heterogeneous#Optimization2026년 4월 7일댓글 수 로딩 중
[sglang] PD 시나리오에서 상세 캐시 히트 분류 수정Prefill-Decode 분리 환경에서 device/host/storage별 캐시 히트 통계가 올바르게 전달되도록 수정#SGLang#HiCache#Disaggregation#Cache2026년 4월 2일댓글 수 로딩 중