[논문리뷰] Why Muon Outperforms Adam: A Curvature Perspective본 논문은 LLM pretraining에서 Muon이 왜 Adam보다 약 2배 빠른 학습 효율을 보이는지, 그 근본적인 기하학적 이유를 규명하고자 합니다.#Review#Muon#Adam#Curvature#Normalized Directional Sharpness (NDS)#Large Language Model#Optimization Landscape#Hessian2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers대규모 언어 모델(LLM) 학습 시 Weight Decay(WD) 가 가중치 행렬의 스케일을 '노이즈-WD 평형' 상태에 고정시켜 데이터에 최적화된 스케일 학습을 방해하는 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Weight Decay#Learnable Multipliers#Scale Adaptation#Optimization#µP Parametrization#Adam#Muon2026년 1월 8일댓글 수 로딩 중