#Static Sparsity

1개의 포스트

[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

대규모 언어 모델(LLMs)에서 증가하는 Key-Value(KV) 캐시 크기로 인한 GPU 메모리 사용량 증가와 느린 추론 속도 문제를 해결하는 것이 목표입니다.

#Review #LLM #KV Cache Optimization #Model Pruning #Efficient Decoding #Memory Optimization #Static Sparsity #Transformer

2025년 8월 7일