[논문리뷰] Judging What We Cannot Solve: A Consequence-Based Approach for Oracle-Free Evaluation of Research-Level Math연구 수준 수학 문제에 대한 LLM(Large Language Model) 생성 솔루션 의 검증은 전문가 시간을 많이 소모하고 기존 LLM 평가 모델은 신뢰할 수 없거나 편향되어 있습니다.#Review#LLM Evaluation#Mathematical Reasoning#Oracle-Free Validation#Consequence-Based Utility#Solution Quality#In-Context Learning#Research-Level Math2026년 2월 8일댓글 수 로딩 중
[논문리뷰] UQ: Assessing Language Models on Unsolved QuestionsAI 연구의 진전을 이끄는 벤치마크가 난이도와 현실성 을 동시에 갖추지 못하는 문제점을 해결하고자 합니다.#Review#LLM Evaluation#Unsolved Questions#AI Benchmark#Oracle-Free Validation#Generator-Validator Gap#Community Evaluation#Stack Exchange2025년 8월 26일댓글 수 로딩 중