[SGLang] Sliding Window Attention 캐시: SWA 최적화 설계SGLang의 Sliding Window Attention 캐시를 분석한다. 고정 윈도우 크기 내 KV 캐시만 유지하는 전략, Mistral 등 SWA 모델 지원, 메모리 절약 효과를 코드와 함께 살펴본다.#sglang#Sliding Window Attention#SWA Cache#Memory Optimization2026년 4월 10일댓글 수 로딩 중