[논문리뷰] Learn-by-Wire Training Control Governance: Bounded Autonomous Training Under Stress for Stability and Efficiency본 논문은 현대의 Large Language Models 학습이 직면한 불안정성(Instability)과 이로 인한 컴퓨팅 자원 낭비 문제를 시스템 차원의 제어 문제로 정의합니다.#Review#Large Language Models#Training Control Governance#LBW-Guard#AdamW#Training Stability#Bounded Autonomous Control#Compute Efficiency2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Fantastic Pretraining Optimizers and Where to Find Them본 논문은 언어 모델 사전 훈련에서 AdamW 가 지배적인 옵티마이저임에도 불구하고, 새로운 옵티마이저들이 주장하는 1.4배에서 2배 의 학습 속도 향상이 실제로는 널리 채택되지 않는 이유를 규명하고자 합니다.#Review#Deep Learning Optimizers#Large Language Models#Hyperparameter Tuning#Pretraining Speedup#Scaling Laws#AdamW#Matrix-based Optimizers#Data-to-Model Ratio2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Benchmarking Optimizers for Large Language Model Pretraining대규모 언어 모델(LLM) 사전 훈련을 위한 최신 옵티마이저들의 성능을 표준화된 시나리오 에서 종합적으로 평가하고 비교하는 것을 목표로 합니다. 기존의 파편화된 평가 프로토콜로 인해 옵티마이저 간 직접 비교가 어렵다는 문제점을 해결하고, 실무자와 연구자에게 실용적인 가이드라인을 제공하고자 합니다.#Review#LLM Optimizers#Benchmarking#Hyperparameter Tuning#AdamW#AdEMAMix#MARS#Mixture of Experts (MoE)#Weight Decay2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning본 논문은 Maximal-update Parameterization (µP)이 현대 스케일 불변 아키텍처에서 훈련의 정상 상태(steady state)에 도달했을 때 발생하는 학습률 전이(transfer) 저하 문제를 해결하고자 합니다.#Review#Weight Decay Scaling#Maximal-Update Parameterization (µP)#AdamW#Transformer#Hyperparameter Transfer#Scaling Laws#Singular Value Spectrum#Steady State Training2025년 10월 20일댓글 수 로딩 중