본문으로 건너뛰기

[논문리뷰] Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

링크: 논문 PDF로 바로 열기

메타데이터

저자: Qian Zhao, Kunlong Chen, Changxin Tian, Zhonghui Jiang, Haitao Zhang, Chaofan Yu, Peijie Jiang, Mingliang Gong, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

  • Shrinkage Bias: RTNE 기반의 비대칭적 양자화 빈(bin) 구조로 인해 발생하는 시스템적인 음의 반올림 오차로, 크기(magnitude)의 누적적 감쇠를 유발합니다.
  • E2M1: 2개의 exponent 비트와 1개의 mantissa 비트로 구성된 4-bit 부동소수점 포맷으로, 현재 대다수 FP4 훈련 레시피의 표준이나 기하학적 비대칭성 문제를 내포하고 있습니다.
  • Random Hadamard Transform (RHT): 텐서의 이상치(outlier) 에너지를 전체 좌표로 분산시켜 양자화 효율을 높이는 기법이나, 비균등 포맷에서는 오히려 오차를 증폭시킬 수 있습니다.
  • UFP4: 균등한 E1M2/INT4 그리드를 기반으로 RHT를 모든 훈련 GEMM에 적용하고 양자화 품질을 최적화한 새로운 4-bit 훈련 레시피입니다.
  • RTNE (Round-to-Nearest-Even): 가장 가까운 수치로 반올림하되, 중간값일 경우 짝수를 선택하는 결정론적 반올림 규칙입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM pretraining에서 FP4 사용 시 관찰되는 훈련 불안정성의 근본 원인으로 E2M1 포맷의 기하학적 결함을 지목합니다. 기존 연구들은 이상치 처리를 위해 RHT를 사용하지만, 이는 텐서의 분포를 비대칭적인 E2M1 빈으로 집중시켜 오히려 양자화 품질을 저하시키는 결과를 초래합니다 [Figure 1]. 이러한 기하학적 오차는 네트워크의 깊이가 깊어질수록 다층적으로 누적되어 신호의 시스템적 감쇠를 야기하며, 이는 기존 레시피들이 BF16 대비 큰 손실 격차를 보이는 이유가 됩니다.

Figure 1: E2M1과 균등 그리드의 기하학적 차이 및 UFP4 성능 비교

Figure 1 — E2M1과 균등 그리드의 기하학적 차이 및 UFP4 성능 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 E1M2 또는 INT4와 같은 균등 그리드(Uniform Grid)를 채택함으로써 Shrinkage Bias를 완전히 배제하는 UFP4 레시피를 제안합니다 [Figure 3]. 이 방법론은 RHTfwd_y, bwd_dx, bwd_dw 세 가지 훈련 GEMM 경로 모두에 적용할 수 있게 하며, SR(Stochastic Rounding)dYdY에만 제한적으로 사용하여 기대 오차를 관리합니다. 실험 결과, Dense 1.5B, MoE 7.9B, MoE 124B 모델 환경에서 UFP4는 기존 E2M1 기반 베이스라인 대비 BF16과 유사한 수준의 높은 훈련 안정성과 낮은 손실 격차를 달성하였습니다 [Figure 1]. 또한, UFP4는 모델 규모가 커짐에 따라 스케일링 법칙을 준수하며 일관된 성능 우위를 유지함을 입증하였습니다 [Figure 9].

Figure 3: UFP4 레시피의 전체 아키텍처 및 RHT 활용

Figure 3 — UFP4 레시피의 전체 아키텍처 및 RHT 활용

Figure 9: 모델 규모에 따른 UFP4의 스케일링 성능

Figure 9 — 모델 규모에 따른 UFP4의 스케일링 성능

4. Conclusion & Impact (결론 및 시사점)

본 연구는 FP4 훈련에서 데이터 포맷의 기하학적 특성이 RHT와의 상호작용을 통해 훈련 안정성에 치명적인 영향을 미친다는 것을 규명하였습니다. E2M1 중심의 현재 훈련 생태계를 넘어, 차세대 AI 가속기 설계 시 E1M2/INT4와 같은 균등 그리드 포맷을 일급(first-class) 훈련 프리미티브로 지원해야 할 필요성을 강력히 제시합니다. 이 연구는 하드웨어-알고리즘 공동 설계를 통해 FP4 훈련의 실용성을 한 단계 진전시키는 중요한 지표가 될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글