#kv-cache-compression

1개의 포스트

[vLLM] Multi-head Latent Attention: KV 캐시를 압축하는 DeepSeek의 어텐션

KV 캐시를 저차원 잠재 공간으로 압축하여 메모리를 대폭 줄이는 MLA(Multi-head Latent Attention)의 vLLM 구현을 분석한다.

#vllm #mla #deepseek #kv-cache-compression

2026년 4월 7일