[논문리뷰] MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPUMegaTrain은 파라미터와 옵티마이저 상태를 호스트 메모리에 영구 저장하고, GPU는 레이어별 연산 시에만 파라미터를 스트리밍하는 구조를 채택한다. 저자들은 CPU-GPU 대역폭 병목을 극복하기 위해 Pipelined Double-Buffered Execution Engine을 도입하여 연산과 데이터 이동을 비동기적으로 중첩시켰다 .#Review#Large Language Models#Memory-Centric#CPU-GPU Offloading#Parameter Streaming#Stateless Execution#Pipelined Execution#Single-GPU Training2026년 4월 7일댓글 수 로딩 중