[논문리뷰] HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon AgentsLong-horizon 과업에서 에이전트가 Sparse Reward 환경 하에 학습할 때, 전통적인 탐색 방법은 최적의 Policy를 수렴하는 데 극도로 긴 시간이 소요됩니다.#Review#Long-Horizon#Self-Distillation#Hindsight Experience Replay#Reinforcement Learning#Sparse Reward#Goal-Conditioned Policy2026년 5월 24일댓글 수 로딩 중
[논문리뷰] Target Policy Optimization본 논문은 기존의 Policy-Gradient 계열 방법론들이 sparse reward 환경에서 학습이 매우 불안정하고 효과적이지 않다는 문제를 해결하고자 합니다.#Review#Target Policy Optimization#Sparse Reward#Policy Gradient#Cross-Entropy#RLVR#Grouped RL2026년 4월 15일댓글 수 로딩 중