[논문리뷰] Unlocking Feature Learning in Gated Delta Networks at Scale

2026년 6월 3일수정: 2026년 6월 3일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Yifeng Liu, Quanquan Gu, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Gated Delta Network: Mamba-2의 데이터 의존적 gating 메커니즘과 delta rule 기반의 빠른 가중치 업데이트 방식을 결합한 선형 순환 모델입니다.
μP (Maximal Update Parametrization): 모델의 폭(width)이 무한대로 커질 때도 feature learning이 유지되도록 가중치 초기화와 learning rate를 정규화하는 이론적 프레임워크입니다.
Coordinate Size: 벡터나 행렬의 각 요소가 모델 폭 $d$에 따라 어떤 order(예: $\Theta(1/\sqrt{d})$)를 가지는지 나타내는 척도입니다.
BPTT (Backpropagation Through Time) Tail: 순환 모델에서 현재 시점의 state가 미래의 readout에 미치는 영향이 역전파를 통해 누적되는 항을 의미합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 Gated Delta Network와 같은 효율적인 선형 아키텍처에서 대규모 학습 시 안정적인 feature learning을 지원하는 최적의 $\mu P$ 구성 방식을 도출하는 것을 목표로 합니다. 기존의 $\mu P$는 표준 Transformer나 feedforward 구조에 최적화되어 있어, 복잡한 상태 전이와 순환 구조를 가진 모델에 직접 적용할 경우 학습이 발산하거나 feature learning이 저하되는 문제가 발생합니다. 특히 diagonal SSM을 다룬 이전 연구는 full matrix 기반의 순환 상태를 가진 Gated Delta Network에는 적용할 수 없다는 한계가 있습니다. 따라서 본 연구는 모델의 폭 $d$에 따른 적절한 scaling rule을 엄밀하게 유도하여, 작은 모델에서 튜닝한 하이퍼파라미터를 대규모 모델로 zero-shot 전이할 수 있는 체계를 제안합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 forward pass 전반에 걸쳐 coordinate-size를 엄밀하게 추적함으로써 Gated Delta Network를 위한 $\mu P$ 초기화 및 scaling rule을 성공적으로 유도했습니다. 핵심 방법론은 gating weight matrix에 $\Theta(1/\sqrt{d})$의 learning rate scaling을, scalar gating parameter에는 $\Theta(\sqrt{d})$ scaling을 적용하여 모델 폭 변화에 대응하는 것입니다. 또한, readout 과정에서 발생하는 $\Theta(1/\sqrt{d})$ 크기 문제를 보정하기 위해 RMSNorm 이전 단계에 $\sqrt{d}$ 배의 multiplier를 삽입하는 구조를 제안합니다. 실험 결과, 본 논문에서 도출한 $\mu P$ 설정은 AdamW와 SGD 옵티마이저 모두에서 모델 폭 변화에 상관없이 학습률이 안정적으로 전이됨을 확인했습니다. 반면, standard parametrization(SP) 기반의 구성은 모델 규모가 커짐에 따라 학습률 전이에 실패하며, 제안 방법론이 대규모 언어 모델 pretraining의 효율성을 높이는 데 필수적임을 입증합니다.

4. Conclusion & Impact (결론 및 시사점)

본 논문은 Gated Delta Network에 대한 최초의 $\mu P$ formulation을 확립하였으며, 이를 통해 대규모 모델 학습 시 하이퍼파라미터 튜닝 비용을 획기적으로 절감할 수 있는 이론적 토대를 마련했습니다. 본 연구는 linear recurrent architecture가 Transformer와 대등하거나 그 이상의 성능을 내면서도 효율적으로 확장(scale)될 수 있음을 증명합니다. 이는 학계와 산업계에서 차세대 LLM 개발을 위해 더 효율적인 아키텍처를 도입할 때 강력한 가이드라인을 제공하며, 복잡한 비선형 gating 메커니즘을 가진 모델의 확장성 분석에 대한 방법론적 기틀을 제시합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Training-Free Multi-Concept LoRA Composition with Prompt-Aware Weighting
현재글 : [논문리뷰] Unlocking Feature Learning in Gated Delta Networks at Scale
다음글 [논문리뷰] Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories