#Sparse Reward

2개의 포스트

[논문리뷰] HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

Long-horizon 과업에서 에이전트가 Sparse Reward 환경 하에 학습할 때, 전통적인 탐색 방법은 최적의 Policy를 수렴하는 데 극도로 긴 시간이 소요됩니다.

#Review #Long-Horizon #Self-Distillation #Hindsight Experience Replay #Reinforcement Learning #Sparse Reward #Goal-Conditioned Policy

2026년 5월 24일

[논문리뷰] Target Policy Optimization

본 논문은 기존의 Policy-Gradient 계열 방법론들이 sparse reward 환경에서 학습이 매우 불안정하고 효과적이지 않다는 문제를 해결하고자 합니다.

#Review #Target Policy Optimization #Sparse Reward #Policy Gradient #Cross-Entropy #RLVR #Grouped RL

2026년 4월 15일