#Zero-Expert Injection

1개의 포스트

[논문리뷰] Post-Trained MoE Can Skip Half Experts via Self-Distillation

기존의 Dynamic MoE 연구들은 주로 모델을 밑바닥부터 재학습(from scratch)하거나 특정 작업에만 국한된 적응 방식을 취해왔습니다. 그러나 실제 현업에서는 이미 사전 학습 및 후속 학습(SFT, RL 등)이 완료된 Post-Trained MoE 모델을 활용하는 경우가 대부분입니다.

#Review #Mixture-of-Experts #Dynamic Inference #Self-Distillation #Zero-Expert Injection #Large Language Models #Model Adaptation

2026년 5월 18일