#Bayesian Inference

2개의 포스트

[논문리뷰] PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

본 논문은 long-horizon agentic task에서 발생하는 sparse reward로 인한 credit assignment의 근본적인 한계를 해결하고자 한다.

#Review #Reinforcement Learning #Long-Horizon Credit Assignment #Bayesian Inference #Self-Distillation #Search Agents #Agentic RL

2026년 6월 8일

[논문리뷰] CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs

본 연구는 추론 태스크에서 대규모 언어 모델( LLMs )의 훈련 효율성을 향상시키는 것을 목표로 합니다.

#Review #Curriculum Learning #LLMs #Reasoning #Gradient Optimization #Reinforcement Learning #Bayesian Inference #Sample Efficiency

2025년 10월 2일