[논문리뷰] Discretizing Reward Models본 논문은 현대의 Reward Model들이 성능 측정 지표상으로는 우수해 보이지만, 실제 Reinforcement Learning 과정에서 응답의 유용성을 과도하게 구별하는 Oversensitivity 문제로 인해 저품질 정책을 유도한다는 점을 문제로 제기합니다 .#Review#Reward Model#Reinforcement Learning#Oversensitivity#Discretization#Reward Clustering#Monte Carlo Dropout#Discriminative Ability#Specificity2026년 6월 25일댓글 수 로딩 중