[논문리뷰] DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론에서 최종 정답 기반 보상의 한계를 가지며, 이는 증명 작업에 적용하기 어렵고 추론의 정확성을 보장하지 못한다는 문제점을 해결하고자 합니다.#Review#Mathematical Reasoning#Large Language Models (LLMs)#Proof Verification#Self-Verification#Reinforcement Learning (RL)#Theorem Proving#Meta-Verification#Iterative Refinement2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Towards Robust Mathematical Reasoning기존 수학 벤치마크들의 포화 상태와 단답형 답변 위주의 한계를 극복하기 위해, 논문은 국제 수학 올림피아드(IMO) 수준의 견고한 수학적 추론 능력을 평가하는 새로운 벤치마크 스위트인 IMO-Bench 를 제안합니다.#Review#Mathematical Reasoning#Large Language Models (LLMs)#AI Benchmarks#International Mathematical Olympiad (IMO)#Proof Verification#Automatic Grading#Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] StatEval: A Comprehensive Benchmark for Large Language Models in Statistics본 논문은 수학적 및 논리적 추론에 비해 통계 분야 에서 벤치마킹 노력이 부족하다는 점을 지적하며, 이 간극을 해소하고자 합니다. 통계학 전반의 깊이와 난이도를 포괄하는 최초의 포괄적 벤치마크인 StatEval 을 도입하여 LLM의 통계적 추론 능력과 이론적 증명 역량을 엄격하게 평가하는 것을 목표로 합니다.#Review#Statistical Reasoning#LLM Benchmark#Statistics Education#Proof Verification#Multi-agent Pipeline#Automated Extraction#Evaluation Framework2025년 10월 13일댓글 수 로딩 중