#Confidence Reweighting

1개의 포스트

[논문리뷰] Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting

본 논문은 Group Relative Policy Optimization (GRPO) 기반의 LLM(대규모 언어 모델) 추론 학습 과정에서 '음성 그룹'(모든 샘플이 오답인 경우)이 학습에 기여하지 않고 컴퓨팅 자원을 낭비하는 문제점을 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Reasoning Tasks #GRPO #Negative Samples #Reward Modeling #Confidence Reweighting #Mathematical Reasoning

2025년 10월 13일