#Top-k Routing

1개의 포스트

[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Daisuke Nohara이 arXiv에 게시한 'Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks' 논문에 대한 자세한 리뷰입니다.

#Review #Mixture-of-Experts (MoE)#Sparsity #Scaling Laws #Reasoning Tasks #Memorization #Large Language Models #Generalization Gap #Top-k Routing

2025년 8월 27일