#Reward Clustering

1개의 포스트

[논문리뷰] Discretizing Reward Models

본 논문은 현대의 Reward Model들이 성능 측정 지표상으로는 우수해 보이지만, 실제 Reinforcement Learning 과정에서 응답의 유용성을 과도하게 구별하는 Oversensitivity 문제로 인해 저품질 정책을 유도한다는 점을 문제로 제기합니다 .

#Review #Reward Model #Reinforcement Learning #Oversensitivity #Discretization #Reward Clustering #Monte Carlo Dropout #Discriminative Ability #Specificity

2026년 6월 25일