[vLLM] Multi-head Latent Attention: KV 캐시를 압축하는 DeepSeek의 어텐션KV 캐시를 저차원 잠재 공간으로 압축하여 메모리를 대폭 줄이는 MLA(Multi-head Latent Attention)의 vLLM 구현을 분석한다.#vllm#mla#deepseek#kv-cache-compression2026년 4월 7일댓글 수 로딩 중