#Hyperparameter Transfer

5개의 포스트

[논문리뷰] Unlocking Feature Learning in Gated Delta Networks at Scale

본 논문은 Gated Delta Network와 같은 효율적인 선형 아키텍처에서 대규모 학습 시 안정적인 feature learning을 지원하는 최적의 $\mu P$ 구성 방식을 도출하는 것을 목표로 합니다.

#Review #Gated Delta Network #Maximal Update Parametrization #Feature Learning #Hyperparameter Transfer #Linear Recurrent Models #Deep Learning Theory

2026년 6월 3일

[논문리뷰] Spectral Condition for μP under Width-Depth Scaling

본 논문은 폭(width)과 깊이(depth)가 동시에 확장되는 최신 생성형 파운데이션 모델에서 발생하는 불안정한 특징 학습 및 신뢰할 수 없는 하이퍼파라미터(HP) 전이 문제를 해결하고자 합니다.

#Review #μP #Width-Depth Scaling #Spectral Condition #Hyperparameter Transfer #Generative Foundation Models #Deep Residual Networks #Scale Invariance

2026년 3월 2일

[논문리뷰] The Design Space of Tri-Modal Masked Diffusion Models

본 논문은 텍스트, 이미지-텍스트, 오디오-텍스트 데이터에 대해 처음부터 사전 훈련된 최초의 삼중 모달(tri-modal) 마스크드 확산 모델(MDM) 을 소개합니다.

#Review #Masked Diffusion Models #Multimodal AI #Scaling Laws #Discrete Diffusion #SDE Parameterization #Hyperparameter Transfer #Unified Generation

2026년 2월 25일

[논문리뷰] Optimal Scaling Needs Optimal Norm

이 논문은 대규모 언어 모델(LLM) 훈련에서 최적의 스케일링 을 달성하기 위한 하이퍼파라미터 전이(transfer)의 견고성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 옵티마이저가 명시적으로 노름을 최적화 할 때 모델 및 데이터 스케일 변화에 따라 하이퍼파라미터 스케일링 규칙이 어떻게 변하는지 규명하고자 합니다.

#Review #Optimal Scaling #Norm-Based Optimizers #Hyperparameter Transfer #Learning Rate Scaling #Batch Size Scaling #Transformer Models #Scion Optimizer #Large Language Models

2025년 10월 7일

[논문리뷰] Robust Layerwise Scaling Rules by Proper Weight Decay Tuning

본 논문은 Maximal-update Parameterization (µP)이 현대 스케일 불변 아키텍처에서 훈련의 정상 상태(steady state)에 도달했을 때 발생하는 학습률 전이(transfer) 저하 문제를 해결하고자 합니다.

#Review #Weight Decay Scaling #Maximal-Update Parameterization (µP)#AdamW #Transformer #Hyperparameter Transfer #Scaling Laws #Singular Value Spectrum #Steady State Training

2025년 10월 20일