#Reasoning Sparks

1개의 포스트

[논문리뷰] Low-probability Tokens Sustain Exploration in Reinforcement Learning with Verifiable Reward

본 논문은 Verifiable Reward를 사용하는 RL(RLVR) 환경에서 Large Language Model(LLM)의 탐색 능력 저하, 즉 '탐색 붕괴' 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Exploration #Verifiable Reward #Low-Probability Regularization #Reasoning Sparks #Policy Entropy #KL Divergence #Mathematical Reasoning

2025년 10월 10일