#Neural Network Scaling

1개의 포스트

[논문리뷰] Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

본 논문은 더 큰 모델(Larger Models)이 더 작은 모델이 학습하지 못하는 작업들을 어떻게 학습하는지에 대한 근본적인 메커니즘을 규명하고자 합니다.

#Review #Scaling Laws #Rare-Task Retention #Gradient Interference #Neural Network Scaling #Multi-Task Learning #Feature Learning

2026년 5월 28일