[flashinfer] FlashInfer BF16 XQA MLA 커널의 10가지 버그 수정 및 최적화 분석FlashInfer의 BF16 XQA MLA 커널에서 발생한 10가지 치명적인 버그를 수정하고 성능을 개선한 PR을 분석합니다.#FlashInfer#CUDA#Kernel Optimization#BF16#XQA#MLA2026년 5월 7일댓글 수 로딩 중
[vllm] vLLM, Arm CPU의 BF16 GELU 연산을 LUT 기반 구현으로 8배 가속vLLM이 Arm CPU 환경에서 BF16 GELU 연산을 LUT 기반으로 구현하여 성능을 크게 향상시킨 PR 분석.#vLLM#Arm CPU#BF16#GELU#최적화#성능 개선#LUT2026년 4월 16일댓글 수 로딩 중
[논문리뷰] Defeating the Training-Inference Mismatch via FP16대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Fine-tuning#Training-Inference Mismatch#Floating Point Precision#FP16#BF16#RL Stability2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Why Low-Precision Transformer Training Fails: An Analysis on Flash Attention본 논문은 저정밀도(low-precision) Flash Attention 을 사용하는 Transformer 모델 학습 시 발생하는 치명적인 손실 폭발(loss explosion) 현상의 기계론적 원인 을 규명하는 것을 목표로 합니다.#Review#Low-Precision Training#Flash Attention#Transformer#Numerical Stability#BF16#Rounding Error#Gradient Bias#Deep Learning Optimization2025년 10월 9일댓글 수 로딩 중