#Policy Valuation

1개의 포스트

[논문리뷰] Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards

현재 LLM 추론을 위한 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론(예: PPO, GRPO)은 일반적인 제어 설정에 맞춰 설계되어 학습 불안정성 및 다양성 붕괴와 같은 문제에 직면합니다.

#Review #Reinforcement Learning #LLM Reasoning #Policy Valuation #Markov Decision Process #Diversity #Math Reasoning #Verifiable Rewards

2025년 9월 30일