#Best-of-N

2개의 포스트

[논문리뷰] Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

본 논문은 기존의 RM 벤치마크가 개인의 고유한 요구사항을 고려하지 못하고, 하류 작업(Downstream tasks)에서의 실제 성능 개선과 약한 상관관계를 보인다는 문제를 해결하기 위해 Personalized RewardBench 를 제안한다.

#Review #Personalized RewardBench #Reward Modeling #Pluralistic Alignment #User Profile #Downstream Validation #Best-of-N #PPO

2026년 4월 8일

[논문리뷰] Making, not Taking, the Best of N

본 논문은 기존 Best-of-N (BON) 방식이 여러 LLM 생성물 중 하나만을 선택하여 잠재적으로 유용한 정보를 버리는 제로섬 게임이라는 문제점을 지적합니다.

#Review #LLM Aggregation #Generative Fusion #Best-of-N #Synthetic Data Generation #Test-Time Scaling #Multilingual Models #Ensemble Learning

2025년 10월 2일