[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.#Review#Multimodal Reward Model#MLLM Alignment#RLHF#Reward Head Architecture#Data Curation#Ensemble Methods#BaseReward2025년 9월 22일댓글 수 로딩 중