[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention본 논문은 저정밀도(low-precision) Flash Attention 을 사용하는 Transformer 모델 학습 시 발생하는 치명적인 손실 폭발(loss explosion) 현상의 기계론적 원인 을 규명하는 것을 목표로 합니다.#Review#Low-Precision Training#Flash Attention#Transformer#Numerical Stability#BF16#Rounding Error#Gradient Bias#Deep Learning Optimization2025년 10월 9일댓글 수 로딩 중