[논문리뷰] RewardDance: Reward Scaling in Visual Generation시각 생성 모델의 RM(Reward Model) 스케일링 패러다임이 기존 CLIP 기반 RM의 아키텍처 및 입력 제약, Bradley-Terry 손실과 VLM(Vision-Language Model)의 다음 토큰 예측 메커니즘 간의 불일치, 그리고 보상 해킹(Reward Hacking) 문제로 인해 제대로 탐구되지 못하는 한계를 해결하는 것이 목표입니다.#Review#Reward Model#Visual Generation#RLHF#VLM#Reward Scaling#Reward Hacking#Generative Paradigm#Context Scaling#Text-to-Image#Text-to-Video2025년 9월 11일댓글 수 로딩 중