[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Reinforcement Learning#Memory Efficiency#Monte Carlo Sampling#Log-Likelihood Approximation#Policy Optimization#ELBO2025년 10월 15일댓글 수 로딩 중