[논문리뷰] Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm대규모 언어 모델(LLM) 사전 학습에 필요한 막대한 GPU 메모리 및 통신 대역폭 요구 사항으로 인한 중앙 집중식 학습의 한계를 극복하는 것입니다.#Review#Decentralized Training#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Memory Efficiency#Sparse Expert Synchronization#Federated Learning#Distributed GPUs2026년 2월 12일댓글 수 로딩 중