#Learning Rate Stability

1개의 포스트

[논문리뷰] SimpleGPT: Improving GPT via A Simple Normalization Strategy

본 논문은 Transformer 모델의 최적화 안정성 문제를 해결하고자 합니다. 기존 정규화 기법들이 경험적으로 도입되었던 한계를 넘어, 2차 최적화 기하학 과 활성화 스케일 의 관점에서 아키텍처 설계와 최대 허용 학습률 간의 직접적인 연결을 이론적으로 규명하는 것을 목표로 합니다.

#Review #Transformer Optimization #Normalization Strategy #Hessian Spectral Norm #Learning Rate Stability #Large Language Models #SimpleNorm #Second-Order Optimization

2026년 2월 3일