[논문리뷰] DMax: Aggressive Parallel Decoding for dLLMs

2026년 4월 9일수정: 2026년 4월 9일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang

1. Key Terms & Definitions (핵심 용어 및 정의)

dLLM (Diffusion Language Models) : 텍스트 생성 작업을 토큰 시퀀스에 대한 이산적 디노이징(discrete denoising) 과정으로 모델링하는 생성 모델 프레임워크입니다.
Error Accumulation : 기존의 이진(binary) mask-to-token 디코딩 방식에서, 초기 단계의 잘못된 예측이 수정되지 못하고 후속 단계의 컨텍스트로 전파되어 성능 저하를 일으키는 현상을 의미합니다.
OPUT (On-Policy Uniform Training) : 모델이 사전에 학습된 mask-based dLLM을 유지하면서, 자신의 예측 분포에서 샘플링된 noisy 시퀀스를 통해 학습함으로써 자가 수정(self-correction) 능력을 내재화하는 훈련 기법입니다.
SPD (Soft Parallel Decoding) : 중간 디코딩 상태를 이산적인 토큰이 아닌, 예측된 토큰 임베딩과 마스크 임베딩 간의 확률적 가중 보간(hybrid soft embedding)으로 표현하여 예측 불확실성을 보존하는 추론 전략입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 dLLM의 핵심 장점인 병렬 디코딩(parallel decoding)이 가진 성능 제한의 근본 원인인 오류 누적(error accumulation) 문제를 해결하고자 합니다. 기존의 MDLMs(Masked Diffusion Language Models)는 마스크를 토큰으로 변환하는 이진적이고 일방향적인 프로세스를 따르며, 일단 생성된 토큰은 수정이 불가능합니다. 이러한 방식은 높은 병렬성을 적용할 경우 오류가 누적되어 의미적 붕괴(semantic collapse)를 초래합니다. 본 연구는 디코딩 과정 중 예측을 스스로 수정할 수 있는 능력을 갖춘 새로운 패러다임이 필요하다고 판단했습니다 [Figure 1].

Figure 1: LLaDA-2.0-mini와 DMax의 비교

Figure 1 — LLaDA-2.0-mini와 DMax의 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 dLLM을 위한 DMax 패러다임을 제안하며, 이는 예측의 self-refinement 과정을 임베딩 공간 내의 변환으로 재구성합니다. 핵심 기법인 OPUT 은 학습 시 모델 스스로의 예측을 통해 noisy input을 구성함으로써 train-inference 간의 불일치를 줄여 자가 수정 능력을 극대화합니다 [Figure 2]. 이어지는 추론 단계에서는 SPD 를 도입하여, 이전 단계의 예측 불확실성을 하이브리드 소프트 임베딩으로 유지하며 정교한 반복 수정 과정을 수행합니다 [Figure 3]. 실험 결과, DMax 는 LLaDA-2.0-mini 대비 GSM8K 벤치마크에서 TPF(Tokens Per Forward)를 2.04에서 5.48로 대폭 향상시키면서도 정확도를 유지했습니다. 코드 생성 벤치마크인 MBPP 에서도 TPF를 2.71에서 5.86으로 개선하는 우수한 성과를 거두었습니다 [Table 1]. 이러한 결과는 DMax 가 높은 정확도를 유지하면서도 공격적인 병렬 디코딩을 가능하게 함을 입증합니다.

Figure 2: OPUT 아키텍처 개요

Figure 2 — OPUT 아키텍처 개요

Figure 3: DMax의 소프트 병렬 디코딩 절차

Figure 3 — DMax의 소프트 병렬 디코딩 절차

4. Conclusion & Impact (결론 및 시사점)

본 연구는 DMax 라는 새로운 dLLM 패러다임을 통해 병렬 디코딩의 효율성과 품질을 동시에 확보하는 성과를 거두었습니다. OPUT 과 SPD 라는 두 가지 핵심 기술적 설계를 통해 dLLM의 고질적인 문제인 오류 누적을 성공적으로 완화하였습니다. 본 연구는 추후 병렬 디코딩 기반의 거대 언어 모델 연구에서 강력한 베이스라인을 제공하며, 더욱 효율적이고 신뢰성 있는 텍스트 생성 모델 개발의 중요한 토대를 마련했습니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?
현재글 : [논문리뷰] DMax: Aggressive Parallel Decoding for dLLMs
다음글 [논문리뷰] Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering