[논문리뷰] Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks본 논문은 MoE(Mixture-of-Experts) 언어 모델에서 스파시티(sparsity)가 기억(memorization) 능력과 추론(reasoning) 능력에 미치는 영향을 규명하고, 고정된 연산 예산(compute budget) 내에서 태스크별 최적의 스파시티 구성을 찾는 것을 목표로 합니다.#Review#Mixture-of-Experts (MoE)#Sparsity#Scaling Laws#Reasoning Tasks#Memorization#Large Language Models#Generalization Gap#Top-k Routing2025년 8월 27일댓글 수 로딩 중