[논문리뷰] ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation본 논문은 추천 시스템이 과거 데이터를 단순히 모방하는 것을 넘어, 사용자의 선호도를 새로운 영역으로 확장하는 Proactive Recommendation의 한계를 해결하고자 한다.#Review#Proactive Recommendation#Reinforcement Learning#Policy Gradient Estimation#Path Feasibility#Guidance Effectiveness2026년 5월 27일댓글 수 로딩 중