[논문리뷰] Confidence-Adaptive SwiGLU for Mixture-of-Experts본 논문은 MoE 모델 내 SwiGLU 활성화 함수의 게이트 선택성이 훈련 과정 전반에 걸쳐 고정되어 있다는 점을 해결하고자 합니다.#Review#Mixture-of-Experts#SwiGLU#Gate Sharpness#Routing Confidence#Transformer#Activation Function#MoE2026년 6월 1일댓글 수 로딩 중