#Matrix-based Optimizers

2개의 포스트

[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers

논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.

#Review #Distributed Training #Matrix-based Optimizers #Load Balancing #Asynchronous Compute #Data Parallelism #Tensor Parallelism #ZeRO-1 #LLMs

2026년 2월 8일

[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them

본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.

#Review #Deep Learning Optimizers #Large Language Models #Hyperparameter Tuning #Pretraining Speedup #Scaling Laws #AdamW #Matrix-based Optimizers #Data-to-Model Ratio

2025년 9월 3일