[논문리뷰] Why Muon Outperforms Adam: A Curvature Perspective본 논문은 LLM pretraining에서 Muon이 왜 Adam보다 약 2배 빠른 학습 효율을 보이는지, 그 근본적인 기하학적 이유를 규명하고자 합니다.#Review#Muon#Adam#Curvature#Normalized Directional Sharpness (NDS)#Large Language Model#Optimization Landscape#Hessian2026년 6월 8일댓글 수 로딩 중