[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable RewardsRLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Calibration#Over-confidence#Decoupled Optimization#Verifiable Rewards#Policy Optimization#Expected Calibration Error2026년 3월 10일댓글 수 로딩 중