#GQLA

1개의 포스트

[논문리뷰] GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

본 연구는 MLA가 특정 하드웨어(예: NVIDIA H100)의 연산-대역폭 비율에 지나치게 종속되어 있다는 문제를 해결합니다.

#Review #Large Language Model #KV-cache #Multi-head Latent Attention #GQLA #Hardware-Adaptive #Roofline Model #Tensor Parallelism

2026년 5월 17일