#Generation Order

1개의 포스트

[논문리뷰] The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models

이 논문은 Diffusion Large Language Models (dLLMs)의 핵심 이점으로 여겨지는 임의 순서(arbitrary order) 생성 능력 이 실제 추론 잠재력을 제한한다는 역설적인 현상을 밝히고, dLLM의 추론 능력을 더 효과적으로 이끌어내기 위한 새로운 RL 방법론 을 제시하는 것을 목표로 합니다.

#Review #Diffusion Language Models #Reasoning #Reinforcement Learning #Autoregressive Models #Generation Order #Entropy Degradation #Pass@k #GRPO

2026년 1월 22일