#Supervised Reinforcement Learning

1개의 포스트

[논문리뷰] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

대규모 언어 모델(LLMs)이 다단계 추론 문제, 특히 정답 궤적이 희박한 어려운 태스크에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Supervised Reinforcement Learning #LLMs #Multi-step Reasoning #Reward Shaping #Expert Trajectories #Math Reasoning #Agentic AI

2025년 10월 31일