[논문리뷰] Delta Attention Residuals본 논문은 기존 Attention Residuals에서 발생하는 routing collapse 문제를 해결하고자 한다. 기존 모델들은 각 레이어의 출력 $h_i$가 이전 레이어들의 누적 합이기 때문에, 레이어가 깊어질수록 인접한 $h_i$와 $h_{i-1}$ 간의 중복성이 극도로 높아진다 .#Review#Attention Residuals#Delta Representation#Additive Routing#Transformer#Model Scaling#Fine-tuning2026년 5월 19일댓글 수 로딩 중