[논문리뷰] Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention본 논문은 더 큰 모델(Larger Models)이 더 작은 모델이 학습하지 못하는 작업들을 어떻게 학습하는지에 대한 근본적인 메커니즘을 규명하고자 합니다.#Review#Scaling Laws#Rare-Task Retention#Gradient Interference#Neural Network Scaling#Multi-Task Learning#Feature Learning2026년 5월 28일댓글 수 로딩 중