#Deep Learning Optimizers

1개의 포스트

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일