#Process-Supervised RL

1개의 포스트

[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models

본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.

#Review #Reinforcement Learning #Process-Supervised RL #Large Language Models #Reasoning Models #Attention Mechanism #Efficient Exploration #Adaptive Sampling #Off-Policy Training

2025년 10월 1일