[논문리뷰] V_{0.5}: Generalist Value Model as a Prior for Sparse RL RolloutsRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 정책 경사(policy gradients)의 안정성을 저해하는 희소 롤아웃(sparse rollouts) 으로 인한 높은 분산을 해결하고, 일반화된 가치 모델(Generalist Value Model)의 편향(bias) 문제를 완화하여, 안정적이고 효율적인 정책 학습을 가능하게 하는 강건한 어드밴티지…#Review#Reinforcement Learning#Value Models#Advantage Baseline#Sparse Rollouts#Shrinkage Estimation#Sequential Analysis#LLM Fine-tuning#Mathematical Reasoning2026년 3월 11일댓글 수 로딩 중