[논문리뷰] Context Memorization for Efficient Long Context Generation본 논문은 긴 Prefix를 활용하는 현대의 LLM 애플리케이션들이 겪는 성능 저하와 추론 비효율성 문제를 해결하고자 합니다 .#Review#Attention-State Memory#Long Context Generation#In-Context Learning#Retrieval-Augmented Generation#Online-Softmax Identity#Prefix Caching#LLM Inference2026년 5월 19일댓글 수 로딩 중
[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#RadixAttention#Prefix Caching#Radix Tree#KV Cache2026년 4월 10일댓글 수 로딩 중