[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.#vLLM#LLM#KV Cache#Quantization#Optimization#Triton#GPU Memory2026년 4월 15일댓글 수 로딩 중
[SGLang] GPU Memory Pool: 블록 기반 KV 캐시 메모리 할당SGLang의 GPU Memory Pool을 분석한다. 사전 할당된 GPU 메모리 블록 관리, KV 캐시용 메모리 풀 설계, 동적 할당/해제 전략을 코드와 함께 살펴본다.#sglang#Memory Pool#GPU Memory#Block Allocation2026년 4월 10일댓글 수 로딩 중