#Reinforcement Learning with Verifiable Rewards (RLVR)

5개의 포스트

[논문리뷰] Not only where, But when: Temporal Scheduling for RLVR

본 논문은 기존 RLVR 방법론에서 사용되는 Stagnant Credit Allocation 기법들이 가지는 최적화의 경직성 문제를 해결하고자 합니다. 대다수의 기존 연구는 특정 토큰을 강조하는 기준을 학습 내내 일관되게 적용하여, 시퀀스 내에 존재하는 이질적인 정책 행동(Reasoning scaffolding vs.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Large Language Models (LLMs)#Temporal Scheduling #Credit Allocation #Trajectory Percentile Score (TP-Score)#Policy Optimization

2026년 6월 1일

[논문리뷰] Evaluating Parameter Efficient Methods for RLVR

본 논문은 Reinforcement Learning with Verifiable Rewards (RLVR) 패러다임 하에서 다양한 Parameter-Efficient Fine-Tuning (PEFT) 방법론 을 체계적으로 평가하여 최적의 아키텍처를 식별하는 것을 목표로 합니다.

#Review #Parameter-Efficient Fine-Tuning (PEFT)#Reinforcement Learning with Verifiable Rewards (RLVR)#Low-Rank Adaptation (LoRA)#Mathematical Reasoning #LLM Adaptation #SVD Initialization

2025년 12월 30일

[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions #Data Selection #Off-Policy Learning #Curriculum Learning #Large Language Models (LLMs)#Sparse Random Projection #Data Efficiency

2025년 11월 9일

[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning #Large Language Models (LLMs)#Activity Scheduling #Longest Increasing Subsequence (LIS)#Generalization Limits #Reward Design #Self-consistency

2025년 11월 9일

[논문리뷰] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

논문은 LLM의 추론 능력 향상을 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 훈련 정체(training plateaus) 및 불충분한 탐색(insufficient exploration) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Monte Carlo Tree Search (MCTS)#Mathematical Reasoning #Large Language Models (LLMs)#Systematic Exploration #Adaptive Training #Tree-GRPO

2025년 10월 2일