#Outcome-based Verifier

1개의 포스트

[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification

본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.

#Review #LLM Verification #Chain-of-Thought #Process-based Verifier #Outcome-based Verifier #Active Learning #Reinforcement Learning #Mathematical Reasoning #AI Alignment

2025년 12월 11일