#KV Compression

1개의 포스트

[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션

SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.

#sglang #MLA #Multi-head Latent Attention #KV Compression #DeepSeek

2026년 4월 11일