[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math본 논문은 LLM 기반 추론 시스템의 수학적 증명 단계별 검증 능력을 평가하기 위한 새로운 벤치마크, Hard2Verify 를 제시합니다. 기존 벤치마크가 프론티어 수준의 오픈 엔드 수학 문제에 대한 단계별 오류를 충분히 평가하지 못하는 한계를 해결하고, 검증기의 실제 성능을 엄격하게 측정하는 것을 목표로 합니다.#Review#LLM Verification#Math Reasoning#Step-Level Verification#Benchmark#Open-Ended Problems#Process Reward Models#Generative Critics2025년 10월 16일댓글 수 로딩 중