[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor

2026년 4월 7일수정: 2026년 4월 7일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Jingyi Yang, Yuxian Jiang, XuHao Hu, Shuang Cheng, Biqing Qi, Jing Shao

1. Key Terms & Definitions (핵심 용어 및 정의)

dLLM (Diffusion Large Language Models) : 순차적인 토큰 생성 대신 반복적인 노이즈 제거(denoising)와 병렬 생성 방식을 사용하는 LLM 모델군.
MDLM (Masked Diffusion Language Models) : 전체 시퀀스에 대해 반복적인 노이즈 제거를 수행하는 대표적인 dLLM 패러다임.
BDLM (Block Diffusion Language Models) : 시퀀스를 블록으로 나누어 블록 내 노이즈 제거와 블록 간 자기회귀(autoregressive) 방식을 결합한 dLLM 구조.
Rollout : 모델이 생성 과정 중에 샘플링된 궤적(trajectory)을 생성하는 단계로, RL 과정에서 정책 개선을 위한 데이터를 확보하는 핵심 요소.
NELBO (Negative Evidence Lower Bound) : Diffusion 모델의 학습 및 최적화 과정에서 사용하는 손실 함수로, 데이터 분포와 모델 분포 간의 차이를 최소화하기 위한 지표.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 dLLM의 급격한 발전에도 불구하고, 연구 생태계가 파편화되어 있어 체계적인 비교와 효율적인 학습이 어렵다는 문제를 제기한다. 기존 dLLM 연구들은 저마다 고유한 모델 포크, 롤아웃 구현, 보상 인터페이스 및 평가 스크립트를 사용하여 일관된 비교가 불가능한 환경을 초래했다. 특히 dLLM은 표준적인 LLM RL 프레임워크와는 근본적으로 다른 구조적 특성을 지녀, 기존의 자기회귀 방식 RL 파이프라인을 그대로 재사용할 수 없다. 이러한 시스템적 격차를 해소하기 위해 저자들은 연구의 반복 속도를 높이고, 정당한 알고리즘 비교를 가능하게 하는 통합 프레임워크를 제안한다 [Figure 1].

Figure 1: DARE 프레임워크의 고수준 구조

Figure 1 — DARE 프레임워크의 고수준 구조

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor) 를 제안한다. DARE 는 verl 과 OpenCompass 를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 [Figure 1]. 저자들은 시스템 최적화가 dLLM 학습에 필수적임을 인지하고, 학습과 롤아웃 간의 어텐션 백엔드를 분리하는 전략을 취했다. 예를 들어, MDLM 롤아웃에는 Fast-dLLM 과 FlashAttention 을 결합하여 속도를 높이고, 학습 시에는 가변 길이 패딩 오버헤드를 줄이는 백엔드를 적용했다 [Figure 2]. 이러한 최적화를 통해 롤아웃 경로에서 약 2.2x 의 속도 향상을, 전체 파이프라인에서는 약 4x 의 성능 개선을 달성했다. 정량적 결과에서, DARE 내의 통합 실험은 다양한 RL 알고리즘(예: Coupled-GRPO , CJ-GRPO , d1 )의 성능이 백본 모델과 태스크에 따라 다름을 보여주며, 기존의 파편화된 코드베이스 대비 안정적인 학습 곡선을 도출했다 [Table 1, Table 3].

Figure 2: 어텐션 백엔드 최적화 성능 비교

Figure 2 — 어텐션 백엔드 최적화 성능 비교

4. Conclusion & Impact (결론 및 시사점)

본 논문은 dLLM 분야의 연구 파편화를 해결하기 위해 재사용 가능한 연구 기반인 DARE 를 구축하고 공개하였다. DARE 는 다양한 모델 패밀리와 최신 후학습 알고리즘을 단일 생태계 내에서 통합함으로써 공정한 알고리즘 비교와 효율적인 연구 환경을 제공한다. 이 연구는 특정 방법론을 제시하는 것을 넘어, 향후 dLLM 관련 시스템적, 알고리즘적 연구가 나아갈 수 있는 표준화된 플랫폼을 마련했다는 점에서 큰 학술적·실무적 의의를 갖는다. 저자들은 앞으로 더 많은 모델군과 알고리즘이 이 프레임워크에 통합되어 dLLM 생태계 성장을 가속화할 것으로 기대한다.

Figure 3: 다양한 태스크 및 모델의 학습 곡선

Figure 3 — 다양한 태스크 및 모델의 학습 곡선

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Context-Value-Action Architecture for Value-Driven Large Language Model Agents
현재글 : [논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor
다음글 [논문리뷰] Demystifying When Pruning Works via Representation Hierarchies