[논문리뷰] The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement본 논문은 현대의 RLHF 파이프라인에서 발생하는 정적 RM 학습 데이터의 한계와 정책 드리프트(distribution shift) 문제를 해결하고자 한다.#Review#RLHF#Reward Model#Self-Supervised Learning#On-Policy Feedback#Value-Anchored#Minimax Optimization#Policy Alignment2026년 5월 31일댓글 수 로딩 중