[Triton] SwiGLU exp2 최적화 부분 롤백 — 수치 정확도 우선exp2_ftz 최적화가 일부 모델에서 수치 차이를 유발하여 일시 롤백#Triton#Kernel#Numerical Stability#Revert#SwiGLU2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention본 논문은 저정밀도(low-precision) Flash Attention 을 사용하는 Transformer 모델 학습 시 발생하는 치명적인 손실 폭발(loss explosion) 현상의 기계론적 원인 을 규명하는 것을 목표로 합니다.#Review#Low-Precision Training#Flash Attention#Transformer#Numerical Stability#BF16#Rounding Error#Gradient Bias#Deep Learning Optimization2025년 10월 9일댓글 수 로딩 중