[논문리뷰] Post-Trained MoE Can Skip Half Experts via Self-Distillation기존의 Dynamic MoE 연구들은 주로 모델을 밑바닥부터 재학습(from scratch)하거나 특정 작업에만 국한된 적응 방식을 취해왔습니다. 그러나 실제 현업에서는 이미 사전 학습 및 후속 학습(SFT, RL 등)이 완료된 Post-Trained MoE 모델을 활용하는 경우가 대부분입니다.#Review#Mixture-of-Experts#Dynamic Inference#Self-Distillation#Zero-Expert Injection#Large Language Models#Model Adaptation2026년 5월 18일댓글 수 로딩 중