#RL Stability

1개의 포스트

[논문리뷰] Defeating the Training-Inference Mismatch via FP16

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Fine-tuning #Training-Inference Mismatch #Floating Point Precision #FP16 #BF16 #RL Stability

2025년 11월 9일