#Recomputation-Free

1개의 포스트

[논문리뷰] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

본 논문은 RAG(Retrieval-Augmented Generation) 환경에서 빈번하게 발생하는 KV cache의 컨텍스트 의존성 및 그로 인한 추론 지연 문제를 해결하는 것을 목표로 합니다.

#Review #LLM #KV Cache #RAG #Recomputation-Free #Soft-token Adapter #Self-Supervised Distillation #Attention Dynamics

2026년 4월 16일