[논문리뷰] Training Data Efficiency in Multimodal Process Reward Models본 논문은 Multimodal Process Reward Models (MPRMs) 훈련의 데이터 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Process Reward Models (MPRMs)#Data Efficiency#Monte Carlo Annotation#Data Selection#Balanced-Information Score (BIS)#Label Mixture#Label Reliability#Computational Cost Reduction2026년 2월 4일댓글 수 로딩 중