[논문리뷰] mHC: Manifold-Constrained Hyper-Connections논문은 Hyper-Connections (HC) 가 잔여 스트림의 폭을 넓히고 연결성을 다양화하여 성능을 향상시키지만, 항등 매핑(identity mapping) 속성을 손상시켜 심각한 훈련 불안정성, 제한된 확장성, 그리고 상당한 메모리 접근 오버헤드 를 야기하는 문제를 해결하고자 합니다.#Review#Hyper-Connections#Residual Connections#Manifold Learning#Doubly Stochastic Matrices#Training Stability#Large Language Models#Infrastructure Optimization#Deep Learning Architecture2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Virtual Width Networks본 논문은 Transformer 모델의 히든 차원을 늘릴 때 발생하는 Quadratic한 계산 비용 문제를 해결하면서도, 더 넓은 표현(wider representations)이 제공하는 이점을 얻는 것을 목표로 합니다.#Review#Virtual Width Networks#Transformer#Mixture-of-Experts (MoE)#Scaling Laws#Representation Learning#Model Efficiency#Multi-Token Prediction#Hyper-Connections2025년 11월 16일댓글 수 로딩 중