[논문리뷰] Target Policy OptimizationJean Kaddour이 arXiv에 게시한 'Target Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Target Policy Optimization#Sparse Reward#Policy Gradient#Cross-Entropy#RLVR#Grouped RL2026년 4월 15일댓글 수 로딩 중