[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.#Review#LLM Optimizers#Benchmarking#Hyperparameter Tuning#AdamW#AdEMAMix#MARS#Mixture of Experts (MoE)#Weight Decay2025년 9월 3일댓글 수 로딩 중