[논문리뷰] Target Policy Optimization본 논문은 기존의 Policy-Gradient 계열 방법론들이 sparse reward 환경에서 학습이 매우 불안정하고 효과적이지 않다는 문제를 해결하고자 합니다.#Review#Target Policy Optimization#Sparse Reward#Policy Gradient#Cross-Entropy#RLVR#Grouped RL2026년 4월 15일댓글 수 로딩 중