#Gradient Masking

1개의 포스트

[논문리뷰] On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

대규모 언어 모델(LLM) 학습에 주로 사용되는 밀집형 적응적 옵티마이저의 한계에 도전하고, 무작위 업데이트 마스킹이 최적화 성능을 향상시킬 수 있음을 입증하는 것이 목표입니다. 특히, 모멘텀-그래디언트 정렬을 활용하는 새로운 마스킹 기법인 Magma 를 제안하여 LLM 훈련의 안정성과 일반화 성능을 개선하고자 합니다.

#Review #Adaptive Optimizers #Gradient Masking #LLM Training #Geometric Regularization #Momentum Alignment #RMSProp #Perplexity #Deep Learning

2026년 2월 17일