[axolotl] FSDP CPU RAM Efficient Loading 패치: non-rank-0 프로세스의 불필요한 가중치 초기화 방지FSDP 분산 학습에서 cpu_ram_efficient_loading 사용 시 non-rank-0 프로세스가 가중치를 재초기화하는 문제를 monkeypatch로 해결한 사례를 분석합니다.#Axolotl#FSDP#Distributed Training#Memory Optimization#Monkeypatch2026년 3월 16일댓글 수 로딩 중
[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at Scale본 논문은 기존 FSDP(Fully Sharded Data Parallel) 시스템이 블록-wise 양자화 훈련 이나 Shampoo, Muon 과 같은 비-요소별(non-element-wise) 옵티마이저 를 사용하는 구조 인식 훈련(structure-aware training) 에서 겪는 한계를 해결하고자 합니다.#Review#FSDP#Distributed Training#LLM#GPU Scaling#Memory Optimization#Performance Optimization#Structure-Aware Training#RaggedShard2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Revisiting Parameter Server in LLM Post-Training대규모 언어 모델(LLM) 후처리 훈련 과정에서 시퀀스 길이의 높은 편차 로 인해 발생하는 워크로드 불균형 문제 를 해결하는 것이 목표입니다.#Review#LLM Post-Training#Parameter Server#Distributed Training#FSDP#On-Demand Communication#Workload Imbalance#Communication Optimization#Deep Learning2026년 1월 27일댓글 수 로딩 중
[논문리뷰] VeOmni: Scaling Any Modality Model Training with Model-Centric Distributed Recipe Zoo본 논문은 다양한 모달리티를 처리하는 복잡하고 이질적인 아키텍처 때문에 확장성이 부족하고 엔지니어링 오버헤드가 큰 옴니모달 LLM(Large Language Models) 훈련의 어려움을 해결하는 것을 목표로 합니다.#Review#Omni-modal LLMs#Distributed Training#Model-centric#Parallelism#FSDP#Sequence Parallelism#Expert Parallelism#Mixture-of-Experts2025년 8월 5일댓글 수 로딩 중