[논문리뷰] Unified Personalized Reward Model for Vision Generation본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.#Review#Reward Model#Vision Generation#Personalized Learning#Context-Adaptive Reasoning#Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning#Group Relative Policy Optimization (GRPO)2026년 2월 3일댓글 수 로딩 중