[논문리뷰] Parallax: Parameterized Local Linear Attention for Language Modeling본 논문은 대규모 언어 모델(LLM) 학습에서 Softmax Attention이 가지는 구조적 한계를 극복하고 효율성을 높이는 것을 목표로 한다.#Review#Local Linear Attention#Language Modeling#Muon Optimizer#Parameterized Attention#Arithmetic Intensity2026년 5월 28일댓글 수 로딩 중