[논문리뷰] Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving본 논문은 Multi-turn LLM serving 시 발생하는 선형적인 KV Cache 증가 문제를 해결하기 위해 도입된 Non-uniform KV Cache Compression이, 기존의 시스템 소프트웨어 스택과 충돌하여 발생하는 심각한 효율성 저하 문제를 지적합니다.#Review#LLM Serving#KV Cache Compression#Non-uniform Compression#PagedAttention#Deterministic Scheduling#AOT Load Balancing2026년 6월 15일댓글 수 로딩 중