#Sentiment Generation

1개의 포스트

[논문리뷰] Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization

본 논문은 고정된 온도(β) 파라미터 에 의존하여 다양한 선호도 데이터에서 과적합이나 학습 부족을 야기하는 기존 DPO(Direct Preference Optimization) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Direct Preference Optimization #Preference Alignment #Adaptive Regularization #Reward Model #Large Language Models #Sentiment Generation

2025년 10월 8일