[논문리뷰] Optimal Scaling Needs Optimal Norm이 논문은 대규모 언어 모델(LLM) 훈련에서 최적의 스케일링 을 달성하기 위한 하이퍼파라미터 전이(transfer)의 견고성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 옵티마이저가 명시적으로 노름을 최적화 할 때 모델 및 데이터 스케일 변화에 따라 하이퍼파라미터 스케일링 규칙이 어떻게 변하는지 규명하고자 합니다.#Review#Optimal Scaling#Norm-Based Optimizers#Hyperparameter Transfer#Learning Rate Scaling#Batch Size Scaling#Transformer Models#Scion Optimizer#Large Language Models2025년 10월 7일댓글 수 로딩 중