[논문리뷰] GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding본 연구는 MLA가 특정 하드웨어(예: NVIDIA H100)의 연산-대역폭 비율에 지나치게 종속되어 있다는 문제를 해결합니다.#Review#Large Language Model#KV-cache#Multi-head Latent Attention#GQLA#Hardware-Adaptive#Roofline Model#Tensor Parallelism2026년 5월 17일댓글 수 로딩 중