#Absolute Advantage

1개의 포스트

[논문리뷰] Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

본 연구는 DPO와 RLHF 간의 이론적 동치성이 모든 경우에 성립하는 것이 아니라, 특정 가정에 의존하는 조건부 동치성임을 밝힙니다.

#Review #DPO #RLHF #Constrained Preference Optimization #Bradley-Terry Model #Alignment #Soft Margin Ranking #Absolute Advantage

2026년 5월 20일