#Prefix Caching

3개의 포스트

[논문리뷰] ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving

본 논문은 PD-disaggregated MoE 서빙 환경에서 기존 라우팅 방식이 단순히 부하 분산(Load balancing)에만 집중하여 발생하는 비효율을 해결하고자 합니다.

#Review #Mixture-of-Experts #PD-Disaggregated Serving #Expert Locality #Decode Routing #Prefix Caching #TPOT

2026년 7월 1일

[논문리뷰] Context Memorization for Efficient Long Context Generation

본 논문은 긴 Prefix를 활용하는 현대의 LLM 애플리케이션들이 겪는 성능 저하와 추론 비효율성 문제를 해결하고자 합니다 .

#Review #Attention-State Memory #Long Context Generation #In-Context Learning #Retrieval-Augmented Generation #Online-Softmax Identity #Prefix Caching #LLM Inference

2026년 5월 19일

[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심

SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.

#sglang #RadixAttention #Prefix Caching #Radix Tree #KV Cache

2026년 4월 10일