[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language ModelsDiffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.#Review#Diffusion Language Models#Post-Training#Reinforcement Learning#GRPO#FlexAttention#LMDeploy#Math Reasoning#SFT2025년 12월 29일댓글 수 로딩 중