[논문리뷰] Variable-Width Transformers본 논문은 대부분의 Transformer 모델이 모든 층에 걸쳐 일정한 Width를 유지하는 Uniform-Width 설계를 고수함으로써 발생하는 자원 비효율성 문제를 해결하고자 한다. 저자들은 층별로 수행하는 계산적 역할이 다름에도 불구하고 고정된 매개변수와 연산 예산을 균등하게 할당하는 것은 최적이 아니라고 주장한다.#Review#Transformer#Nonuniform Capacity Allocation#Variable-Width Architecture#Scaling Laws#KV Cache#Computational Efficiency#Representation Collapse2026년 6월 16일댓글 수 로딩 중