#Target Policy Optimization

1개의 포스트

[논문리뷰] Target Policy Optimization

본 논문은 기존의 Policy-Gradient 계열 방법론들이 sparse reward 환경에서 학습이 매우 불안정하고 효과적이지 않다는 문제를 해결하고자 합니다.

#Review #Target Policy Optimization #Sparse Reward #Policy Gradient #Cross-Entropy #RLVR #Grouped RL

2026년 4월 15일