[논문리뷰] Discretizing Reward Models

2026년 6월 25일수정: 2026년 6월 25일

링크: 논문 PDF로 바로 열기

저자: Vijay Viswanathan, Shiqi Wang, Devamanyu Hazarika, Chirag Nagpal, Tongshuang Wu, Graham Neubig, Yuning Mao

1. Key Terms & Definitions (핵심 용어 및 정의)

Reward Model (RM): LLM의 응답 품질을 자동으로 평가하여 연속적인 점수를 부여하는 모델로, 직접적인 인간 평가를 대체하기 위해 사용됩니다.
Oversensitivity: RM이 실제로 동일한 유용성(Utility)을 가진 응답들에 대해 서로 다른 점수를 부여하는 현상으로, RM의 신뢰도를 떨어뜨리고 부적절한 학습 신호를 생성합니다.
Discriminative Ability: 서로 다른 유용성을 가진 응답 쌍을 RM이 올바르게 구별할 수 있는 능력입니다.
Specificity: 동일한 유용성을 가진 응답들을 RM이 동일한 점수로 평가할 수 있는 능력으로, Oversensitivity의 보완 지표입니다.
Monte Carlo Dropout: 모델의 예측 불확실성을 추정하기 위해 추론 시 Dropout을 반복적으로 적용하여 통계적 분포를 얻는 기법입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대의 Reward Model들이 성능 측정 지표상으로는 우수해 보이지만, 실제 Reinforcement Learning 과정에서 응답의 유용성을 과도하게 구별하는 Oversensitivity 문제로 인해 저품질 정책을 유도한다는 점을 문제로 제기합니다 [Figure 1]. 기존 연구는 Reward Model의 정확도(Accuracy)만을 강조했으나, 동일한 가치를 지닌 응답들에 대해 불필요한 차등을 두는 것은 학습 과정에서 허위 신호(spurious signal)를 강화하는 원인이 됩니다 [Figure 2]. 저자들은 기존의 단순 Accuracy 평가 방식이 실제 환경에서의 RM 효율성을 측정하기에 충분하지 않음을 지적하며, Discriminative Ability와 Specificity라는 두 가지 세분화된 지표를 제안합니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 RM의 출력값을 클러스터링하여 이산적인 보상값으로 변환하는 Reward Clustering 알고리즘을 제안합니다. 이 방법은 학습이 필요 없는 알고리즘으로, Monte Carlo Dropout을 통해 RM의 예측 분산을 추정한 뒤, 유사한 응답들을 같은 보상 클러스터로 묶어 처리합니다 [Figure 3]. 이론적으로 저자들은 적절한 Discretization을 통해 Discriminative Ability를 유지하면서도 Oversensitivity를 최소화할 수 있음을 증명합니다. 실험 결과, 제안된 Reward Clustering은 인기 있는 Reward Model들(예: Skywork V1/V2, ArmoRM)의 Specificity를 일관되게 향상시켰습니다. 특히, 다중 작업 Reinforcement Learning 시나리오에서 이산화된 보상을 사용할 경우, 원본 보상을 사용할 때보다 IFEval, GSM8K, MATH 등 벤치마크에서 더 우수한 성능을 보이거나 최소한 동등한 수준의 성능을 유지함을 확인했습니다.

4. Conclusion & Impact (결론 및 시사점)

본 연구는 Reward Model의 보상을 이산화함으로써 Oversensitivity 문제를 해결하고 학습 효율을 높일 수 있다는 새로운 관점을 제시합니다. 이 접근 방식은 복잡한 추가 학습 없이 기존의 모든 신경망 기반 RM에 즉시 적용 가능한 실용적인 솔루션을 제공합니다. 결과적으로 이 연구는 더 안정적이고 신뢰할 수 있는 Reinforcement Learning 정책 학습을 가능하게 하여, 생성형 AI의 평가 및 학습 프레임워크 전반에 중요한 기여를 할 것으로 기대됩니다.