[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix LayersarXiv에 게시된 'Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Weight Decay#Learnable Multipliers#Scale Adaptation#Optimization#µP Parametrization#Adam#Muon2026년 1월 8일댓글 수 로딩 중
[논문리뷰] NorMuon: Making Muon more efficient and scalableTuo Zhao이 arXiv에 게시한 'NorMuon: Making Muon more efficient and scalable' 논문에 대한 자세한 리뷰입니다.#Review#LLM Training#Optimizer#Muon#Orthogonalization#Adaptive Learning Rates#Distributed Training#FSDP2#NorMuon2025년 10월 9일댓글 수 로딩 중