#Systems Optimization

1개의 포스트

[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .

#Review #Diffusion Large Language Models #Post-Training #Reinforcement Learning #Unified Framework #Systems Optimization

2026년 4월 7일