[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중