[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.#Review#Distributed Training#Matrix-based Optimizers#Load Balancing#Asynchronous Compute#Data Parallelism#Tensor Parallelism#ZeRO-1#LLMs2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.#Review#Deep Learning Optimizers#Large Language Models#Hyperparameter Tuning#Pretraining Speedup#Scaling Laws#AdamW#Matrix-based Optimizers#Data-to-Model Ratio2025년 9월 3일댓글 수 로딩 중