#Training-Inference Mismatch

2개의 포스트

[논문리뷰] GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models

dLLMs는 기존의 Autoregressive Models(ARMs) 대비 효율적인 생성 성능을 제공하지만, 최적의 성능을 위해 필요한 강화학습(RL) 적용 시 정책 likelihood가 계산 불가능하다는 핵심적인 난관에 직면합니다.

#Review #Diffusion Language Models #Reinforcement Learning #Self-Distillation #Training-Inference Mismatch #Logit Matching

2026년 5월 31일

[논문리뷰] Defeating the Training-Inference Mismatch via FP16

대규모 언어 모델(LLM)의 강화 학습(RL) 미세 조정 과정에서 발생하는 불안정성의 근본 원인인 훈련-추론 불일치(training-inference mismatch) 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Fine-tuning #Training-Inference Mismatch #Floating Point Precision #FP16 #BF16 #RL Stability

2025년 11월 9일