#MLLM Alignment

1개의 포스트

[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model

본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.

#Review #Multimodal Reward Model #MLLM Alignment #RLHF #Reward Head Architecture #Data Curation #Ensemble Methods #BaseReward

2025년 9월 22일