[논문리뷰] Defeating the Training-Inference Mismatch via FP16대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Fine-tuning#Training-Inference Mismatch#Floating Point Precision#FP16#BF16#RL Stability2025년 11월 9일댓글 수 로딩 중