#Layer-wise Learning

1개의 포스트

[논문리뷰] Progressive Residual Warmup for Language Model Pretraining

Transformer 기반 Large Language Models (LLMs) 의 사전 훈련 안정성과 수렴 속도를 향상시키는 것을 목표로 합니다. 특히, 계층적으로 쌓인 Transformer 아키텍처에서 깊은 레이어들이 얕은 레이어들이 안정화되기 전에 기여하여 발생하는 비효율적인 업데이트 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Transformer #Pretraining Stability #Residual Connections #Warmup Schedule #Layer-wise Learning #Optimization

2026년 3월 8일