[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.#Review#LLM#KV Cache Optimization#Model Pruning#Efficient Decoding#Memory Optimization#Static Sparsity#Transformer2025년 8월 7일댓글 수 로딩 중