#Arithmetic Intensity

1개의 포스트

[논문리뷰] Parallax: Parameterized Local Linear Attention for Language Modeling

본 논문은 대규모 언어 모델(LLM) 학습에서 Softmax Attention이 가지는 구조적 한계를 극복하고 효율성을 높이는 것을 목표로 한다.

#Review #Local Linear Attention #Language Modeling #Muon Optimizer #Parameterized Attention #Arithmetic Intensity

2026년 5월 28일