[논문리뷰] MARS-M: When Variance Reduction Meets Matrices본 논문은 대규모 언어 모델(LLM) 및 딥러닝 모델 훈련의 효율성과 안정성을 향상시키기 위해, 행렬 기반 전처리 옵티마이저 의 장점과 분산 감소(variance reduction) 기법 의 장점을 결합하는 것을 목표로 합니다.#Review#Variance Reduction#Matrix-based Optimizer#LLM Training#Deep Learning Optimization#Moonlight#MARS-M#Stochastic Gradient Descent2025년 10월 28일댓글 수 로딩 중