#Preference-Anchored Rationalization

1개의 포스트

[논문리뷰] RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

본 논문은 시각 생성 모델의 보상 모델이 인간의 복합적인 판단을 단일 스칼라 점수로 압축함으로써 발생하는 불투명성과 성능 저하 문제를 해결하고자 합니다.

#Review #RationalRewards #Preference-Anchored Rationalization #Visual Generation #Reasoning-based Reward Model #Reinforcement Learning #Prompt Tuning

2026년 4월 15일