[논문리뷰] OPV: Outcome-based Process Verifier for Efficient Long Chain-of-Thought Verification본 논문은 대규모 언어 모델(LLMs)이 생성하는 길고 복잡한 CoT(Chain-of-Thought) 추론 과정의 신뢰할 수 없는 중간 단계를 효율적으로 검증하는 문제를 해결하고자 합니다.#Review#LLM Verification#Chain-of-Thought#Process-based Verifier#Outcome-based Verifier#Active Learning#Reinforcement Learning#Mathematical Reasoning#AI Alignment2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math본 논문은 LLM 기반 추론 시스템의 수학적 증명 단계별 검증 능력을 평가하기 위한 새로운 벤치마크, Hard2Verify 를 제시합니다. 기존 벤치마크가 프론티어 수준의 오픈 엔드 수학 문제에 대한 단계별 오류를 충분히 평가하지 못하는 한계를 해결하고, 검증기의 실제 성능을 엄격하게 측정하는 것을 목표로 합니다.#Review#LLM Verification#Math Reasoning#Step-Level Verification#Benchmark#Open-Ended Problems#Process Reward Models#Generative Critics2025년 10월 16일댓글 수 로딩 중