#Personalized Learning

1개의 포스트

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일