[논문리뷰] GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding본 연구는 MLA가 특정 하드웨어(예: NVIDIA H100)의 연산-대역폭 비율에 지나치게 종속되어 있다는 문제를 해결합니다.#Review#Large Language Model#KV-cache#Multi-head Latent Attention#GQLA#Hardware-Adaptive#Roofline Model#Tensor Parallelism2026년 5월 17일댓글 수 로딩 중
[SGLang] Multi-head Latent Attention (MLA): KV 캐시 압축 어텐션SGLang의 MLA 구현을 분석한다. DeepSeek-V2의 Multi-head Latent Attention이 KV 캐시를 압축하는 원리, 기존 MHA 대비 7x 성능 향상, FlashInfer·FlashMLA·CUTLASS 3종 백엔드를 코드와 함께 비교한다.#sglang#MLA#Multi-head Latent Attention#KV Compression#DeepSeek2026년 4월 11일댓글 수 로딩 중