[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

2026년 5월 31일수정: 2026년 5월 31일

링크: 논문 PDF로 바로 열기

저자: Xiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng

1. Key Terms & Definitions (핵심 용어 및 정의)

SAVE: 본 논문에서 제안하는 Self-supervised reward model improvement via Value-Anchored On-policy feEdback 프레임워크로, 추가적인 인간 레이블 없이 RL 학습 중 발생하는 On-policy 데이터를 활용해 Reward Model(RM)을 지속적으로 개선함.
Value-Anchored Reward Modeling: RM 내부에 프롬프트별 Value Head를 통합하여, 현재 정책의 기대 보상을 추정하는 기준(anchor)으로 사용함으로써 응답 수준의 상대적 우위를 산출함.
Adaptive Feedback Filtering: 학습 초기에는 명확한 차이를 보이는 샘플에 집중하고, 학습이 진행됨에 따라 점진적으로 더 넓은 범위의 On-policy 응답을 RM 학습에 활용하는 커리큘럼 기반 샘플링 기법.
Minimax Objective: 정책은 RM의 약점을 노출하는 챌린징한 응답을 생성(최대화)하고, RM은 해당 분포 내에서 랭킹 및 보정 오차를 최소화(최소화)하는 Reward-model-centric 최적화 프레임워크.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다. 기존의 RM은 고정된 오프라인 데이터로 학습되지만, 정책이 최적화됨에 따라 생성 분포가 변화하여 RM이 제대로 평가하지 못하는 '보상 해킹(reward hacking)' 및 '과잉 최적화(over-optimization)' 현상이 발생한다 [Figure 1]. 이러한 문제를 해결하기 위해 고품질 인간 레이블을 추가로 확보하거나 강력한 외부 모델을 사용하는 것은 비용이 매우 크거나 모델 성능의 상한선을 결정짓는 병목이 된다. 따라서 저자들은 추가적인 외부 감독 없이, RL 학습 과정에서 정책 모델이 스스로 생성하는 On-policy 데이터를 RM의 지속적인 개선을 위한 정보원으로 활용하는 새로운 방법론의 필요성을 제기한다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 SAVE 프레임워크를 통해 RM에 프롬프트별 Value Head를 추가하고, 이를 응답의 상대적 가치를 판단하는 적응형 앵커로 활용한다 [Figure 1]. 정책 모델이 생성한 응답 그룹에 대해 Value-Anchored RM advantage를 계산하고, 커리큘럼 기반의 Adaptive Feedback Filtering을 통해 모호한 샘플을 제거한 뒤, 나머지 샘플을 긍정 및 부정 피드백 그룹으로 나누어 대조 학습(contrastive objective)을 수행한다. 이 과정은 RM의 학습 데이터가 정책의 진화와 함께 자연스럽게 최신화되도록 유도한다. 실험 결과, SAVE는 6개의 벤치마크(RewardBench, RewardBench 2, RM-Bench 등)에서 평균 정확도를 기존 76.0%에서 77.3%까지 향상시키며 일관된 우위를 점하였다. 또한, 이를 적용한 하위 정책 모델은 AlpacaEval 2의 길이 제어 승률이 51.68%에서 54.24%로, Arena-Hard-v2.0 승률은 30.2%에서 33.9%로 크게 상승하여 RM 개선이 실제 정책 성능 향상으로 직결됨을 입증하였다 [Table 1, Table 3].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 On-policy 피드백을 통해 RM을 지속적으로 개선하는 SAVE 프레임워크를 정립하여 RLHF의 고질적인 정적 데이터 문제를 효과적으로 해결하였다. 이 프레임워크는 이론적으로 Reward-model-centric minimax 최적화를 구현하며, 실험적으로는 다양한 정책 백본 및 RL 알고리즘(GRPO, RLOO, GSPO)에서 범용적인 성능 향상을 보였다. 향후 연구 방향으로는 더욱 큰 규모의 모델에서의 확장성 검증과, 정성적이고 주관적인 응답 평가를 위한 인간 선호도 데이터와의 결합 등이 언급된다. 이 연구는 온라인 학습을 통한 모델 정렬 기술의 효율성을 높이고, 외부 감독 의존성을 낮춤으로써 더 자율적이고 강력한 AI 모델 학습 기법을 제시했다는 점에서 중요한 학술적 의미를 갖는다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Task-Focused Memorization for Multimodal Agents
현재글 : [논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement
다음글 [논문리뷰] The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction