#Robust Learning

1개의 포스트

[논문리뷰] SCAN: Self-Denoising Monte Carlo Annotation for Robust Process Reward Learning

본 논문은 대규모 언어 모델(LLMs)의 추론 과정을 평가하는 Process Reward Models (PRMs) 개발의 핵심 난제인 높은 비용의 사람 주석 데이터 와 Monte Carlo (MC) 추정 데이터의 높은 노이즈 문제를 해결하고자 합니다.

#Review #Process Reward Models #Monte Carlo Annotation #Noise Denoising #Robust Learning #Self-Supervision #Mathematical Reasoning #Large Language Models

2025년 9월 23일