#Parallel Decoding

17개의 포스트

[논문리뷰] dMoE: dLLMs with Learnable Block Experts

본 논문은 MoE 기반 dLLM에서 블록 병렬 디코딩(block parallel decoding) 시 발생하는 과도한 전문가 활성화 문제를 해결하여 inference 효율성을 높이는 것을 목적으로 합니다.

#Review #dLLM #Mixture-of-Experts #Parallel Decoding #Block-level Routing #Expert Compression #Memory-bound

2026년 5월 31일

[논문리뷰] Triplet-Block Diffusion RWKV

본 논문은 Causal Transformer Language Models(LLMs)가 겪는 두 가지 핵심 한계를 해결하고자 합니다.

#Review #Triplet-Block Layout #Diffusion Language Models #RWKV #Linear-time Recurrent Networks #Parallel Decoding #Inference Throughput

2026년 5월 27일

[논문리뷰] DMax: Aggressive Parallel Decoding for dLLMs

본 논문은 dLLM을 위한 DMax 패러다임을 제안하며, 이는 예측의 self-refinement 과정을 임베딩 공간 내의 변환으로 재구성합니다. 핵심 기법인 OPUT은 학습 시 모델 스스로의 예측을 통해 noisy input을 구성함으로써 train-inference 간의 불일치를 줄여 자가 수정 능력을 극대화합니다 .

#Review #Diffusion Language Models #Parallel Decoding #Error Accumulation #On-Policy Training #Self-Correction #Embedding Space

2026년 4월 9일

[논문리뷰] MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

최근 Vision-Language Models (VLMs)의 발전에도 불구하고, 대부분의 기존 문서 OCR 시스템들은 autoregressive (AR) decoding 방식에 의존하고 있습니다.

#Review #Document OCR #Diffusion Models #Inverse Rendering #Parallel Decoding #Block-Attention #Curriculum Learning #Vision-Language Models

2026년 3월 24일

[논문리뷰] dVoting: Fast Voting for dLLMs

본 논문은 확산 대규모 언어 모델( dLLMs )의 추론 능력을 훈련 없이 향상시키면서 기존 테스트 시간 스케일링 기법의 비효율성으로 인한 높은 추론 비용 문제를 해결하는 것을 목표로 합니다. 특히, dLLMs의 유연한 디코딩 프로세스를 활용하여 병렬 테스트 시간 스케일링의 잠재력을 최대한 발휘하고자 합니다.

#Review #dLLMs #Diffusion Models #Test-Time Scaling #Voting #Reasoning #Masked Language Models #Parallel Decoding #Remasking

2026년 2월 12일

[논문리뷰] DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

본 논문은 기존 Autoregressive 모델(ARM) 기반 검색 에이전트의 직렬 실행 구조로 인한 높은 레이턴시 문제를 해결하고, 동시에 Diffusion Large Language Model(dLLM) 의 취약한 추론 및 도구 호출 능력을 개선하여, dLLM을 효율적인 검색 에이전트 백본으로 활용하는 것을 목표로 합니다.

#Review #Diffusion Large Language Models #Search Agents #Latency Reduction #P-ReAct #Agentic Post-training #Supervised Fine-Tuning #Preference Optimization #Parallel Decoding

2026년 2월 10일

[논문리뷰] Residual Context Diffusion Language Models

Diffusion Large Language Models (dLLMs)가 병렬 디코딩의 잠재력에도 불구하고, 낮은 신뢰도의 토큰을 폐기하여 계산을 낭비하고 추론 정확도가 Autoregressive (AR) 모델에 뒤처지는 문제를 해결하고자 합니다.

#Review #Diffusion Language Models #Residual Learning #Context Aggregation #Parallel Decoding #Masked Denoising #Reasoning Benchmarks #Entropy Weighting

2026년 2월 4일

[논문리뷰] On the Role of Discreteness in Diffusion LLMs

본 논문은 확산 모델(Diffusion Models)을 언어 모델링에 적용할 때 발생하는 근본적인 문제점을 분석하고, 텍스트의 이산적이고 구조화된 특성이 확산 메커니즘과 어떻게 불일치하는지 명확히 하는 것을 목표로 합니다.

#Review #Diffusion Models #Language Models #Discrete Text #Continuous Diffusion #Text Generation #Data Augmentation #Parallel Decoding #Structural Dependency

2026년 1월 1일

[논문리뷰] LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding

Diffusion Large Language Models (dLLM)은 병렬 추론 잠재력이 높음에도 불구하고, 현재 confidence-driven 디코딩 전략은 1-3 TPF (Tokens Per Forward pass) 에 머물러 실제 병렬성을 충분히 활용하지 못합니다.

#Review #dLLM #Parallel Decoding #Lookahead #Inference Acceleration #Token Filling Order #Branch Parallelism #Diffusion Models

2025년 12월 22일

[논문리뷰] Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

본 논문은 대규모 언어 모델(LLM)의 순차적(autoregressive, AR) 디코딩으로 인한 높은 지연 시간을 해결하고, AR 모델의 생성 품질과 인과적 추론 특성을 유지하면서 효율적인 병렬 디코딩을 가능하게 하는 것을 목표로 합니다.

#Review #Parallel Decoding #Causal LLM #Jacobi Decoding #Consistency Distillation #Transformer Inference #Latency Reduction #Rejection Recycling #Multi-block Decoding

2025년 12월 17일

[논문리뷰] Set Block Decoding is a Language Model Inference Accelerator

본 논문은 대규모 언어 모델(LLM) 추론, 특히 디코딩 단계에서 발생하는 높은 계산 및 메모리 비용 문제에 초점을 맞춥니다.

#Review #Language Model Inference #Acceleration #Set Block Decoding #Next Token Prediction #Masked Token Prediction #Parallel Decoding #KV-caching #Diffusion Models

2025년 9월 8일

[논문리뷰] A Survey on Diffusion Language Models

본 설문조사는 지배적인 자기회귀(AR) 패러다임 에 대한 강력하고 유망한 대안으로 부상하고 있는 확산 언어 모델(DLM) 의 전체 생태계를 체계적으로 포괄적으로 조명하는 것을 목표로 합니다. DLM의 근본 원리, 기술, 한계 를 분석하고, 미래 연구 방향 을 제시하여 이 빠르게 발전하는 분야의 발전을 촉진하고자 합니다.

#Review #Diffusion Language Models #Generative AI #Parallel Decoding #Text Generation #Multimodal AI #Model Compression #Reinforcement Learning from Human Feedback #Inference Optimization

2025년 8월 15일

[논문리뷰] Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

본 논문은 기존 오픈소스 Diffusion Large Language Models (dLLMs)가 Autoregressive (AR) LLMs에 비해 추론 속도에서 우위를 점하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Faster Inference #Discrete Diffusion Forcing (D2F)#Autoregressive Generation #KV Cache Optimization #Parallel Decoding #Text Generation #Model Distillation

2025년 8월 14일

[논문리뷰] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

본 논문은 Diffusion LLM (dLLM)의 병렬 디코딩이 토큰 의존성 을 무시하여 발생하는 생성 품질 저하 문제와 그로 인한 속도-품질 트레이드오프를 심층적으로 이해하고 정량화하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Parallel Decoding #Speed-Quality Trade-off #Benchmark #Token Dependencies #Unmasking Strategies #Information Theory

2025년 10월 16일

[논문리뷰] Fast-dLLM v2: Efficient Block-Diffusion LLM

본 논문은 Autoregressive (AR) 대규모 언어 모델(LLMs) 의 본질적인 순차적 디코딩으로 인한 추론 비효율성을 해결하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Inference Acceleration #Parallel Decoding #Autoregressive Models #Caching #Fine-tuning #Block-wise Attention

2025년 10월 8일

[논문리뷰] Drax: Speech Recognition with Discrete Flow Matching

자동 음성 인식(ASR) 분야에서 순차적 디코딩 방식의 자기회귀(AR) 모델 이 가진 효율성 병목 현상과 높은 지연 시간을 해결하는 것이 주요 목표입니다.

#Review #Automatic Speech Recognition (ASR)#Discrete Flow Matching (DFM)#Non-Autoregressive (NAR)#Generative Models #Tri-mixture Probability Path #Parallel Decoding #Accuracy-Efficiency Trade-off #Speech Synthesis

2025년 10월 8일

[논문리뷰] dParallel: Learnable Parallel Decoding for dLLMs

본 연구는 확산 언어 모델(dLLMs)이 가진 병렬 디코딩 잠재력 을 충분히 활용하지 못하는 문제, 즉 기존 dLLMs가 성능 유지를 위해 거의 토큰 길이만큼의 디코딩 스텝을 요구하는 병목 현상을 해결하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Parallel Decoding #Inference Acceleration #Certainty Distillation #Self-Distillation #Masked Language Models #LLaDA

2025년 10월 1일