[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.#sglang#MLA#Multi-head Latent Attention#KV Compression#DeepSeek2026년 4월 11일댓글 수 로딩 중