[논문리뷰] PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment본 논문은 long-horizon agentic task에서 발생하는 sparse reward로 인한 credit assignment의 근본적인 한계를 해결하고자 한다.#Review#Reinforcement Learning#Long-Horizon Credit Assignment#Bayesian Inference#Self-Distillation#Search Agents#Agentic RL2026년 6월 8일댓글 수 로딩 중