[논문리뷰] Improved Large Language Diffusion Models

2026년 6월 24일수정: 2026년 6월 24일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Shen Nie, Qiyang Min, Shaoxuan Xu, Zihao Huang, Yuxuan Song, Yong Shan, Yankai Lin, Wayne Xin Zhao, Chongxuan Li, Ji-Rong Wen

## 1. Key Terms & Definitions (핵심 용어 및 정의)

iLLaDA: 본 논문에서 제안하는 8B 규모의 Masked Diffusion Language Model로, 완전한 Bidirectional Attention을 통해 사전 학습된 모델.
Masked Diffusion Objective: 노이즈 비율(masking ratio)에 따라 시퀀스 토큰을 Mask 토큰으로 치환하고, 이를 모델이 예측하도록 학습하는 목적 함수.
Grouped-Query Attention (GQA): 모델의 KV-cache 메모리 사용량을 최적화하고 파라미터 효율성을 높이기 위해 도입된 어텐션 메커니즘.
Confidence-based Scoring: Multiple-choice 벤치마크 평가 시, 모델이 예측한 각 토큰의 확률적 신뢰도를 결합하여 후보군 중 최적의 답변을 선택하는 방식.
Variable-Length Generation: 고정된 시퀀스 길이에 구애받지 않고, 모델이 생성 프로세스 도중 필요에 따라 길이를 조정하며 생성하는 효율적인 추론 방식.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 기존 Autoregressive 패러다임이 지배적인 LLM 생태계에서 Diffusion 기반 언어 모델의 한계를 극복하고 그 가능성을 입증하고자 한다. 기존 모델인 LLaDA는 Bidirectional 학습의 잠재력을 보였으나, 성능 면에서 최신 Autoregressive 모델인 Qwen2.5 대비 격차가 존재했다. 저자들은 모델 구조, 학습 스케줄, 그리고 데이터 처리 방식의 개선을 통해 Diffusion 언어 모델을 12T 토큰 규모까지 성공적으로 스케일링하고자 한다 [Table 1].

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 본 논문은 GQA 적용, Tied Input/Output Embeddings, 그리고 Cosine Decay 스케줄 도입을 통해 모델 아키텍처와 학습 안정성을 대폭 개선하였다. 특히 SFT(Supervised Fine-Tuning) 단계에서 25B 토큰 규모의 데이터를 활용하고, 학습 및 추론 시 Variable-Length Generation을 지원하도록 데이터 파이프라인을 최적화하였다. 주요 실험 결과로, iLLaDA-Base는 기존 LLaDA 대비 BBH 벤치마크에서 21.6점, ARC-Challenge에서 14.9점 향상된 성능을 기록했다 [Table 2]. iLLaDA-Instruct 역시 MATH에서 14.5점, HumanEval에서 16.5점의 높은 성능 개선을 보였다 [Table 3]. 또한 Confidence-based scoring을 통해 다지선다형 평가에서 유의미한 성능 향상을 입증하였다 [Table 4]. SFT 에폭이 증가함에 따라 추론 성능이 지속적으로 향상되는 데이터 재사용 효과도 확인하였다 [Figure 1].

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 iLLaDA를 통해 완전한 Bidirectional Diffusion 학습이 강력한 언어 모델을 구축하기 위한 경쟁력 있는 경로임을 증명하였다. 제안된 모델은 여러 벤치마크에서 최신 Autoregressive 모델과 대등하거나 능가하는 성능을 보이며, 특히 데이터 효율성과 추론 유연성 측면에서 중요한 성과를 거두었다. 향후 Reinforcement Learning 기반의 정렬(Alignment) 기법이 결합된다면, Diffusion 언어 모델의 성능 격차는 더욱 좁혀질 것으로 기대된다.