[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.#Review#Diffusion Language Models#Reasoning#Reinforcement Learning#Autoregressive Models#Generation Order#Entropy Degradation#Pass@k#GRPO2026년 1월 22일댓글 수 로딩 중