[논문리뷰] Progressive Residual Warmup for Language Model PretrainingTransformer 기반 Large Language Models (LLMs) 의 사전 훈련 안정성과 수렴 속도를 향상시키는 것을 목표로 합니다. 특히, 계층적으로 쌓인 Transformer 아키텍처에서 깊은 레이어들이 얕은 레이어들이 안정화되기 전에 기여하여 발생하는 비효율적인 업데이트 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Transformer#Pretraining Stability#Residual Connections#Warmup Schedule#Layer-wise Learning#Optimization2026년 3월 8일댓글 수 로딩 중
[논문리뷰] mHC: Manifold-Constrained Hyper-Connections논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.#Review#Hyper-Connections#Residual Connections#Manifold Learning#Doubly Stochastic Matrices#Training Stability#Large Language Models#Infrastructure Optimization#Deep Learning Architecture2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Who invented deep residual learning?이 논문은 깊은 잔여 학습(deep residual learning) 의 발명 및 진화에 대한 명확한 연대기를 확립하고, 그 핵심 원리와 주요 개발을 주로 Schmidhuber 연구실의 연구, 특히 Sepp Hochreiter의 1991년 학위 논문 과 이후의 LSTM 및 Highway Network 작업을 통해 이루어졌다고 주장하는 것을 목표로 합니다.#Review#Deep Learning History#Residual Connections#Recurrent Neural Networks (RNN)#Long Short-Term Memory (LSTM)#Feedforward Neural Networks (FNN)#Highway Networks#ResNet#Vanishing Gradient2025년 10월 1일댓글 수 로딩 중