[논문리뷰] DARE: Diffusion Large Language Models Alignment and Reinforcement Executor본 논문은 dLLM을 위한 통합 후학습 및 평가 프레임워크인 DARE (dLLMs Alignment and Reinforcement Executor)를 제안한다. DARE는 verl과 OpenCompass를 기반으로 하며, 다양한 모델 패밀리(MDLM 및 BDLM)를 동일한 실행 스택에서 처리할 수 있도록 설계되었다 .#Review#Diffusion Large Language Models#Post-Training#Reinforcement Learning#Unified Framework#Systems Optimization2026년 4월 7일댓글 수 로딩 중
[논문리뷰] DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents본 논문은 기존 Autoregressive 모델(ARM) 기반 검색 에이전트의 직렬 실행 구조로 인한 높은 레이턴시 문제를 해결하고, 동시에 Diffusion Large Language Model(dLLM) 의 취약한 추론 및 도구 호출 능력을 개선하여, dLLM을 효율적인 검색 에이전트 백본으로 활용하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Search Agents#Latency Reduction#P-ReAct#Agentic Post-training#Supervised Fine-Tuning#Preference Optimization#Parallel Decoding2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Beyond Fixed: Variable-Length Denoising for Diffusion Large Language ModelsDiffusion Large Language Models (DLLMs)의 핵심 제약 사항인 고정된 출력 길이 문제를 해결하고, 태스크별로 동적으로 적응하는 가변 길이 생성 을 가능하게 하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Variable-Length Generation#Dynamic Length Adaptation#Denoising Strategy#Inference Optimization#Computational Efficiency2025년 8월 4일댓글 수 로딩 중
[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Reinforcement Learning#Memory Efficiency#Monte Carlo Sampling#Log-Likelihood Approximation#Policy Optimization#ELBO2025년 10월 15일댓글 수 로딩 중