[논문리뷰] Augmenting Attention with Exponentially Decaying Memory Improves Query-Aware KV Sparsity본 논문은 Long-context LLM의 추론 효율성을 높이기 위한 기존 Query-aware sparse inference 기법들의 성능 한계를 극복하는 것을 목표로 한다.#Review#Efficient Inference#Query-Aware Sparsity#KV-cache#Exponentially Decaying Memory#RAT+#Long-Context LLM2026년 6월 7일댓글 수 로딩 중