[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.#Review#Deep Learning Optimizers#Large Language Models#Hyperparameter Tuning#Pretraining Speedup#Scaling Laws#AdamW#Matrix-based Optimizers#Data-to-Model Ratio2025년 9월 3일댓글 수 로딩 중