[논문리뷰] PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment본 논문은 long-horizon agentic task에서 발생하는 sparse reward로 인한 credit assignment의 근본적인 한계를 해결하고자 한다.#Review#Reinforcement Learning#Long-Horizon Credit Assignment#Bayesian Inference#Self-Distillation#Search Agents#Agentic RL2026년 6월 8일댓글 수 로딩 중
[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.#Review#Curriculum Learning#LLMs#Reasoning#Gradient Optimization#Reinforcement Learning#Bayesian Inference#Sample Efficiency2025년 10월 2일댓글 수 로딩 중