#Exponentially Decaying Memory

1개의 포스트

[논문리뷰] Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity

본 논문은 Long-context LLM의 추론 효율성을 높이기 위한 기존 Query-aware sparse inference 기법들의 성능 한계를 극복하는 것을 목표로 한다.

#Review #Efficient Inference #Query-Aware Sparsity #KV-cache #Exponentially Decaying Memory #RAT+#Long-Context LLM

2026년 6월 7일