#N-gram Embedding

1개의 포스트

[논문리뷰] Scaling Embeddings Outperforms Scaling Experts in Language Models

이 논문은 대규모 언어 모델(LLMs)에서 Mixture-of-Experts (MoE) 아키텍처가 겪는 효율성 한계를 극복하기 위해 임베딩 스케일링 을 새로운 희소성 스케일링 차원으로 탐구하는 것을 목표로 합니다.

#Review #Embedding Scaling #N-gram Embedding #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Parameter Efficiency #Inference Optimization #Speculative Decoding

2026년 1월 29일