[논문리뷰] Training Data Efficiency in Multimodal Process Reward Models본 논문은 Multimodal Process Reward Models (MPRMs) 훈련의 데이터 효율성 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Process Reward Models (MPRMs)#Data Efficiency#Monte Carlo Annotation#Data Selection#Balanced-Information Score (BIS)#Label Mixture#Label Reliability#Computational Cost Reduction2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.#Review#Process Reward Models#Monte Carlo Annotation#Noise Denoising#Robust Learning#Self-Supervision#Mathematical Reasoning#Large Language Models2025년 9월 23일댓글 수 로딩 중