[논문리뷰] Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases본 논문은 RLHF가 정렬을 위해 사용하는 선호도 데이터셋이 사실은 모델 스스로의 출력에 의해 오염될 수 있는 구조적 한계를 해결하고자 한다. 기존의 RLHF는 응답의 선택 이유를 명시하지 않고 단순히 pairwise 비교 결과만을 사용하기 때문에, 고품질 응답에 포함된 편향을 의도치 않게 학습하게 된다 .#Review#RLHF#Alignment Tampering#Bias Amplification#Reward Hacking#Bias-Quality Correlation2026년 5월 28일댓글 수 로딩 중