#Scale Adaptation

1개의 포스트

[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

대규모 언어 모델(LLM) 학습 시 Weight Decay(WD) 가 가중치 행렬의 스케일을 '노이즈-WD 평형' 상태에 고정시켜 데이터에 최적화된 스케일 학습을 방해하는 문제를 해결하는 것이 목표입니다.

#Review #Large Language Models #Weight Decay #Learnable Multipliers #Scale Adaptation #Optimization #µP Parametrization #Adam #Muon

2026년 1월 8일