[논문리뷰] Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models본 논문은 LLM의 추론 능력 강화를 위한 기존 Process-Supervised Reinforcement Learning (PSRL) 방법론의 제한된 탐색 효율성 문제를 해결하고자 합니다. 특히, 분기 위치 선정 및 샘플링 비효율성을 개선하고, 전반적인 훈련 효율성을 높이는 것을 목표로 합니다.#Review#Reinforcement Learning#Process-Supervised RL#Large Language Models#Reasoning Models#Attention Mechanism#Efficient Exploration#Adaptive Sampling#Off-Policy Training2025년 10월 1일댓글 수 로딩 중