#Optimizer

4개의 포스트

[cpython] Python JIT 옵티마이저의 다중 캐시 버그 수정: `optimizer_generator` 개선 분석

Python JIT 옵티마이저가 다중 캐시를 올바르게 처리하도록 수정된 PR 분석.

#Python #JIT #Optimizer #Performance #Bug Fix #CPython

2026년 4월 14일

[axolotl] Flash Optimizer 지원 추가: FlashAdamW, FlashSGD, FlashLion 등 5종 커스텀 옵티마이저

flashoptim 라이브러리의 5가지 Flash Optimizer를 axolotl에 통합하고, FSDP2 전용 검증 로직과 end-to-end 테스트를 추가한 사례를 분석합니다.

#Axolotl #Optimizer #Flash Optimizer #FSDP2 #Training

2026년 2월 10일

[논문리뷰] MSign: An Optimizer Preventing Training Instability in Large Language Models via Stable Rank Restoration

대규모 언어 모델(LLM) 사전 학습 중 발생하는 갑작스러운 그레디언트 폭발 과 같은 훈련 불안정성 문제를 해결하는 것을 목표로 합니다. 특히, 이러한 불안정성의 근본적인 메커니즘을 규명하고 이를 효과적으로 방지하는 새로운 최적화 기법을 제안합니다.

#Review #LLM Training Stability #Gradient Explosion #Stable Rank #Jacobian Alignment #Matrix Sign Operation #Optimizer #Transformer

2026년 2월 8일

[논문리뷰] NorMuon: Making Muon more efficient and scalable

대규모 언어 모델(LLM) 훈련 효율성 향상을 위해 기존 Muon 옵티마이저의 한계를 극복하는 것이 목표입니다. Muon이 업데이트의 컨디셔닝을 개선하지만 뉴런별 업데이트 노름의 분산이 크다는 문제를 해결하고, 이를 통해 훈련 동역학을 더욱 균형 있게 만들어 전반적인 수렴 속도와 확장성을 높이고자 합니다.

#Review #LLM Training #Optimizer #Muon #Orthogonalization #Adaptive Learning Rates #Distributed Training #FSDP2 #NorMuon

2025년 10월 9일