#BF16

3개의 포스트

[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속

vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.

#vLLM #Arm CPU #BF16 #GELU #최적화 #성능 개선 #LUT

2026년 4월 16일

[논문리뷰] Defeating the Training-Inference Mismatch via FP16

arXiv에 게시된 'Defeating the Training-Inference Mismatch via FP16' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLM Fine-tuning #Training-Inference Mismatch #Floating Point Precision #FP16 #BF16 #RL Stability

2025년 11월 9일

[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention

arXiv에 게시된 'Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention' 논문에 대한 자세한 리뷰입니다.

#Review #Low-Precision Training #Flash Attention #Transformer #Numerical Stability #BF16 #Rounding Error #Gradient Bias #Deep Learning Optimization

2025년 10월 9일