#Sparse Expert Synchronization

1개의 포스트

[논문리뷰] Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

대규모 언어 모델(LLM) 사전 학습에 필요한 막대한 GPU 메모리 및 통신 대역폭 요구 사항으로 인한 중앙 집중식 학습의 한계를 극복하는 것입니다.

#Review #Decentralized Training #Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Memory Efficiency #Sparse Expert Synchronization #Federated Learning #Distributed GPUs

2026년 2월 12일