#Preference Distributions

1개의 포스트

[논문리뷰] Judging with Confidence: Calibrating Autoraters to Preference Distributions

이 논문은 현재 LLM 기반 자동 평가자(autoraters)가 이진 선호 레이블로만 훈련되어 인간 판단의 주관성과 분포적 특성을 간과하고, 불확실성과 소수 의견을 무시하는 근본적인 한계를 해결하고자 합니다.

#Review #Large Language Models #Autoraters #Calibration #Preference Distributions #Reinforcement Learning #Supervised Fine-tuning #Positional Bias

2025년 10월 7일