[논문리뷰] VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models기존 롤아웃 기반 강화 학습(RL) 방법론이 LLM의 동적인 학습 능력과 샘플 난이도를 효과적으로 매칭하지 못하는 문제를 해결하는 것이 목표입니다. 특히 수학적 추론 태스크에서 LLM의 효율적인 학습을 저해하는 고정된 난이도 샘플링과 불안정한 훈련을 개선하고자 합니다.#Review#Reinforcement Learning#Curriculum Learning#Large Language Models#Mathematical Reasoning#Variance-based Sampling#Replay Learning#Policy Optimization2025년 9월 26일댓글 수 로딩 중