#Residual Connections

3개의 포스트

[논문리뷰] Progressive Residual Warmup for Language Model Pretraining

Transformer 기반 Large Language Models (LLMs) 의 사전 훈련 안정성과 수렴 속도를 향상시키는 것을 목표로 합니다. 특히, 계층적으로 쌓인 Transformer 아키텍처에서 깊은 레이어들이 얕은 레이어들이 안정화되기 전에 기여하여 발생하는 비효율적인 업데이트 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Transformer #Pretraining Stability #Residual Connections #Warmup Schedule #Layer-wise Learning #Optimization

2026년 3월 8일

[논문리뷰] mHC: Manifold-Constrained Hyper-Connections

논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.

#Review #Hyper-Connections #Residual Connections #Manifold Learning #Doubly Stochastic Matrices #Training Stability #Large Language Models #Infrastructure Optimization #Deep Learning Architecture

2025년 12월 31일

[논문리뷰] Who invented deep residual learning?

이 논문은 깊은 잔여 학습(deep residual learning) 의 발명 및 진화에 대한 명확한 연대기를 확립하고, 그 핵심 원리와 주요 개발을 주로 Schmidhuber 연구실의 연구, 특히 Sepp Hochreiter의 1991년 학위 논문 과 이후의 LSTM 및 Highway Network 작업을 통해 이루어졌다고 주장하는 것을 목표로 합니다.

#Review #Deep Learning History #Residual Connections #Recurrent Neural Networks (RNN)#Long Short-Term Memory (LSTM)#Feedforward Neural Networks (FNN)#Highway Networks #ResNet #Vanishing Gradient

2025년 10월 1일