[논문리뷰] GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language ModelsdLLMs는 기존의 Autoregressive Models(ARMs) 대비 효율적인 생성 성능을 제공하지만, 최적의 성능을 위해 필요한 강화학습(RL) 적용 시 정책 likelihood가 계산 불가능하다는 핵심적인 난관에 직면합니다.#Review#Diffusion Language Models#Reinforcement Learning#Self-Distillation#Training-Inference Mismatch#Logit Matching2026년 5월 31일댓글 수 로딩 중