#Long-Horizon Credit Assignment

1개의 포스트

[논문리뷰] PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

본 논문은 long-horizon agentic task에서 발생하는 sparse reward로 인한 credit assignment의 근본적인 한계를 해결하고자 한다.

#Review #Reinforcement Learning #Long-Horizon Credit Assignment #Bayesian Inference #Self-Distillation #Search Agents #Agentic RL

2026년 6월 8일