[논문리뷰] Spectral Condition for μP under Width-Depth ScalingarXiv에 게시된 'Spectral Condition for μP under Width-Depth Scaling' 논문에 대한 자세한 리뷰입니다.#Review#μP#Width-Depth Scaling#Spectral Condition#Hyperparameter Transfer#Generative Foundation Models#Deep Residual Networks#Scale Invariance2026년 3월 2일댓글 수 로딩 중
[논문리뷰] The Design Space of Tri-Modal Masked Diffusion ModelsarXiv에 게시된 'The Design Space of Tri-Modal Masked Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Masked Diffusion Models#Multimodal AI#Scaling Laws#Discrete Diffusion#SDE Parameterization#Hyperparameter Transfer#Unified Generation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay TuningarXiv에 게시된 'Robust Layerwise Scaling Rules by Proper Weight Decay Tuning' 논문에 대한 자세한 리뷰입니다.#Review#Weight Decay Scaling#Maximal-Update Parameterization (µP)#AdamW#Transformer#Hyperparameter Transfer#Scaling Laws#Singular Value Spectrum#Steady State Training2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Optimal Scaling Needs Optimal NormStefan Kesselheim이 arXiv에 게시한 'Optimal Scaling Needs Optimal Norm' 논문에 대한 자세한 리뷰입니다.#Review#Optimal Scaling#Norm-Based Optimizers#Hyperparameter Transfer#Learning Rate Scaling#Batch Size Scaling#Transformer Models#Scion Optimizer#Large Language Models2025년 10월 7일댓글 수 로딩 중