[논문리뷰] On Surprising Effectiveness of Masking Updates in Adaptive Optimizers대규모 언어 모델(LLM) 학습에 주로 사용되는 밀집형 적응적 옵티마이저의 한계에 도전하고, 무작위 업데이트 마스킹이 최적화 성능을 향상시킬 수 있음을 입증하는 것이 목표입니다. 특히, 모멘텀-그래디언트 정렬을 활용하는 새로운 마스킹 기법인 Magma 를 제안하여 LLM 훈련의 안정성과 일반화 성능을 개선하고자 합니다.#Review#Adaptive Optimizers#Gradient Masking#LLM Training#Geometric Regularization#Momentum Alignment#RMSProp#Perplexity#Deep Learning2026년 2월 17일댓글 수 로딩 중