본문으로 건너뛰기

[논문리뷰] Post-Trained MoE Can Skip Half Experts via Self-Distillation

링크: 논문 PDF로 바로 열기

저자: Xingtai Lv, Li Sheng, Kaiyan Zhang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

  • MoE (Mixture-of-Experts): 파라미터 수를 대규모로 확장하면서도 per-token 연산량은 일정하게 유지하는 sparse 모델 아키텍처입니다.
  • Dynamic MoE: 입력 토큰의 난이도에 따라 활성화되는 expert 수를 조절하여 연산 효율을 최적화하는 모델 변형입니다.
  • Zero Experts: 계산 비용이 0인 파라미터 프리(parameter-free) 모듈로, 이를 활성화함으로써 연산 비용을 절감하는 역할을 합니다.
  • Self-Distillation: 원본(Teacher) 모델을 고정한 상태에서 변형된(Student) 모델이 이를 모사하도록 학습하여 성능 손실을 최소화하는 기술입니다.
  • Group Auxiliary Loss ($\mathcal{L}_{GA}$): Normal expert 그룹과 Zero expert 그룹 간의 활성화 비율을 조절하면서도 기존 모델의 routing 구조를 보존하는 손실 함수입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

기존의 Dynamic MoE 연구들은 주로 모델을 밑바닥부터 재학습(from scratch)하거나 특정 작업에만 국한된 적응 방식을 취해왔습니다. 그러나 실제 현업에서는 이미 사전 학습 및 후속 학습(SFT, RL 등)이 완료된 Post-Trained MoE 모델을 활용하는 경우가 대부분입니다. 기존 모델의 복잡한 routing 체계를 유지하면서도 쉽고 간단한 토큰 처리에 불필요한 expert를 할당하지 않는 효율적인 변환 기법이 부재하다는 문제가 있습니다. 본 논문은 이러한 기존 모델의 아키텍처를 최소한의 비용으로 동적 모델로 전환하는 프레임워크를 제안합니다 [Figure 1].

Figure 1: ZEDA의 전체 아키텍처 구조

Figure 1 — ZEDA의 전체 아키텍처 구조

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문이 제안하는 ZEDA (Zero-Expert Self-Distillation Adaptation)Post-Trained MoE에 파라미터가 없는 Zero Experts를 주입하고, SFTOPD (On-Policy Distillation)의 2단계 Self-Distillation 과정을 통해 모델을 효율화합니다. 주입된 Zero Experts는 추가 연산 없이 선택 가능하므로, 이를 통해 자연스럽게 Normal Experts의 활성화 비율을 줄여 계산 효율성을 확보합니다. 이때 안정적인 학습을 위해 Group Auxiliary Loss를 도입하여 Expert 그룹 간의 균형을 제어합니다 [Figure 1]. 실험 결과, Qwen3-30B-A3BGLM-4.7-Flash 모델에서 50% 이상의 Expert FLOPs를 절감하면서도 성능 하락을 최소화하였습니다. 정량적 지표로, ZEDA는 강력한 baseline 대비 평균적으로 4.0~6.1 포인트의 성능 우위를 보였으며, 약 **1.20×**의 end-to-end 추론 속도 향상을 달성하였습니다 [Table 1, Figure 2].

4. Conclusion & Impact (결론 및 시사점)

ZEDA는 추가적인 대규모 학습 비용 없이도 기존의 정적(static) MoE 모델을 동적(dynamic) 모델로 성공적으로 전환할 수 있는 경량화 및 고효율 적응 프레임워크입니다. 본 연구는 학계뿐만 아니라 산업계의 실제 배포 시나리오에서 모델의 추론 비용을 획기적으로 낮출 수 있는 실질적인 가이드라인을 제공합니다. 특히, 별도의 재학습 없이도 모델의 지식을 유지하며 효율성을 높였다는 점에서 LLM 배포 효율화 분야에 중요한 기여를 합니다.

Figure 2: 추론 속도 향상 비교

Figure 2 — 추론 속도 향상 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글