#AdamW

3개의 포스트

[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

arXiv에 게시된 'Robust Layerwise Scaling Rules by Proper Weight Decay Tuning' 논문에 대한 자세한 리뷰입니다.

#Review #Weight Decay Scaling #Maximal-Update Parameterization (µP)#AdamW #Transformer #Hyperparameter Transfer #Scaling Laws #Singular Value Spectrum #Steady State Training

2025년 10월 20일

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

Percy Liang이 arXiv에 게시한 'Fantastic Pretraining Optimizers and Where to Find Them' 논문에 대한 자세한 리뷰입니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일

[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining

mjaggi이 arXiv에 게시한 'Benchmarking Optimizers for Large Language Model Pretraining' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Optimizers #Benchmarking #Hyperparameter Tuning #AdamW #AdEMAMix #MARS #Mixture of Experts (MoE)#Weight Decay

2025년 9월 3일