[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.#Review#Personalized RewardBench#Reward Modeling#Pluralistic Alignment#User Profile#Downstream Validation#Best-of-N#PPO2026년 4월 8일댓글 수 로딩 중