#Decoupled Optimization

1개의 포스트

[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

RLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #LLM Calibration #Over-confidence #Decoupled Optimization #Verifiable Rewards #Policy Optimization #Expected Calibration Error

2026년 3월 10일