#Group Sampling

2개의 포스트

[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare

RLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM #Policy Optimization #Reward Models #Diversity Preservation #Focal Loss #Group Sampling #Mathematical Reasoning

2026년 2월 8일

[논문리뷰] PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

본 연구는 에이전트 추론(agentic reasoning)을 위한 critic-free 강화 학습 방법론, 특히 그룹 정책(group policies)의 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Critic-Free RL #Agentic Reasoning #Policy Optimization #Large Language Models (LLMs)#Advantage Estimation #Group Sampling #Static Value Estimation

2025년 9월 2일