#Open-Ended Problems

1개의 포스트

[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math

본 논문은 LLM 기반 추론 시스템의 수학적 증명 단계별 검증 능력을 평가하기 위한 새로운 벤치마크, Hard2Verify 를 제시합니다. 기존 벤치마크가 프론티어 수준의 오픈 엔드 수학 문제에 대한 단계별 오류를 충분히 평가하지 못하는 한계를 해결하고, 검증기의 실제 성능을 엄격하게 측정하는 것을 목표로 합니다.

#Review #LLM Verification #Math Reasoning #Step-Level Verification #Benchmark #Open-Ended Problems #Process Reward Models #Generative Critics

2025년 10월 16일