#LMDeploy

1개의 포스트

[논문리뷰] DiRL: An Efficient Post-Training Framework for Diffusion Language Models

Diffusion Language Models (dLLMs)의 미흡한 post-training (특히 RL) 성능을 개선하여 수학적 추론 능력과 실제 배포 효율성을 향상시키는 것을 목표로 합니다.

#Review #Diffusion Language Models #Post-Training #Reinforcement Learning #GRPO #FlexAttention #LMDeploy #Math Reasoning #SFT

2025년 12월 29일