[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.#Review#Personalized RewardBench#Reward Modeling#Pluralistic Alignment#User Profile#Downstream Validation#Best-of-N#PPO2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Making, not Taking, the Best of N본 논문은 기존 Best-of-N (BON) 방식이 여러 LLM 생성물 중 하나만을 선택하여 잠재적으로 유용한 정보를 버리는 제로섬 게임이라는 문제점을 지적합니다.#Review#LLM Aggregation#Generative Fusion#Best-of-N#Synthetic Data Generation#Test-Time Scaling#Multilingual Models#Ensemble Learning2025년 10월 2일댓글 수 로딩 중