[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.#Review#LLM Step-Provers#Reinforcement Learning (RL)#Off-Policy RL#Multi-Agent Systems#Tree Search#Automated Theorem Proving (ATP)#Formal Mathematics#AlphaZero2025년 9월 9일댓글 수 로딩 중
[논문리뷰] EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty본 논문은 형식적 정리 증명(formal theorem proving) 분야에서 대규모 언어 모델(LLMs) 의 일반화 능력이 부족하고 문제 진술의 사소한 변화에도 취약하다는 한계를 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#Data Augmentation#Large Language Models#Formal Mathematics#Symmetry#Difficulty Evolution#Abstract Syntax Tree#Generalizability2025년 10월 7일댓글 수 로딩 중