#Confidence-Aware Rewards

1개의 포스트

[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Exploration-Exploitation #Group Relative Policy Optimization #Entropy Collapse #Generative Models #Confidence-Aware Rewards

2026년 2월 8일