#Inpainting

1개의 포스트

[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models

본 논문은 Diffusion Large Language Models (dLLMs) 에 강화 학습(RL)을 적용할 때 발생하는 탐색(exploration) 문제 를 해결하고자 합니다.

#Review #Diffusion LLMs #Reinforcement Learning #Inpainting #Policy Optimization #Exploration #Mathematical Reasoning #GRPO

2025년 9월 15일