[논문리뷰] Unlocking Feature Learning in Gated Delta Networks at Scale본 논문은 Gated Delta Network와 같은 효율적인 선형 아키텍처에서 대규모 학습 시 안정적인 feature learning을 지원하는 최적의 $\mu P$ 구성 방식을 도출하는 것을 목표로 합니다.#Review#Gated Delta Network#Maximal Update Parametrization#Feature Learning#Hyperparameter Transfer#Linear Recurrent Models#Deep Learning Theory2026년 6월 3일댓글 수 로딩 중