[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning본 논문은 Maximal-update Parameterization (µP)이 현대 스케일 불변 아키텍처에서 훈련의 정상 상태(steady state)에 도달했을 때 발생하는 학습률 전이(transfer) 저하 문제를 해결하고자 합니다.#Review#Weight Decay Scaling#Maximal-Update Parameterization (µP)#AdamW#Transformer#Hyperparameter Transfer#Scaling Laws#Singular Value Spectrum#Steady State Training2025년 10월 20일댓글 수 로딩 중