#Post-LayerNorm

1개의 포스트

[논문리뷰] Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

현재 대규모 언어 모델(LLM)의 스케일링이 한계에 부딪혔으며, 특히 깊이 스케일링은 이론적으로 우수한 표현력을 제공하지만 기존 Transformer 아키텍처는 극심한 깊이에서 안정적으로 훈련하기 어렵습니다.

#Review #Transformer Architecture #Layer Normalization #Depth Scaling #Training Stability #Large Language Models #Gradient Flow #Highway Networks #Post-LayerNorm

2026년 1월 27일