#Pipelined Execution

1개의 포스트

[논문리뷰] MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리에 영구 저장하고, GPU는 레이어별 연산 시에만 파라미터를 스트리밍하는 구조를 채택한다. 저자들은 CPU-GPU 대역폭 병목을 극복하기 위해 Pipelined Double-Buffered Execution Engine을 도입하여 연산과 데이터 이동을 비동기적으로 중첩시켰다 .

#Review #Large Language Models #Memory-Centric #CPU-GPU Offloading #Parameter Streaming #Stateless Execution #Pipelined Execution #Single-GPU Training

2026년 4월 7일