[axolotl] Axolotl MoE 모델 최적화: Tiled-MLP 도입 및 FSDP2 통합으로 성능 극대화Axolotl에서 MoE 모델의 성능을 획기적으로 개선한 Tiled-MLP 도입 및 FSDP2 최적화 분석#Axolotl#MoE#Tiled-MLP#FSDP2#최적화#성능 개선#딥러닝2026년 5월 28일댓글 수 로딩 중
[axolotl] Flash Optimizer 지원 추가: FlashAdamW, FlashSGD, FlashLion 등 5종 커스텀 옵티마이저flashoptim 라이브러리의 5가지 Flash Optimizer를 axolotl에 통합하고, FSDP2 전용 검증 로직과 end-to-end 테스트를 추가한 사례를 분석합니다.#Axolotl#Optimizer#Flash Optimizer#FSDP2#Training2026년 2월 10일댓글 수 로딩 중
[논문리뷰] NorMuon: Making Muon more efficient and scalable대규모 언어 모델(LLM) 훈련 효율성 향상을 위해 기존 Muon 옵티마이저의 한계를 극복하는 것이 목표입니다. Muon이 업데이트의 컨디셔닝을 개선하지만 뉴런별 업데이트 노름의 분산이 크다는 문제를 해결하고, 이를 통해 훈련 동역학을 더욱 균형 있게 만들어 전반적인 수렴 속도와 확장성을 높이고자 합니다.#Review#LLM Training#Optimizer#Muon#Orthogonalization#Adaptive Learning Rates#Distributed Training#FSDP2#NorMuon2025년 10월 9일댓글 수 로딩 중